【タンパク質言語モデル】モデルの機能予測性能を徹底比較

論文タイトル

A Benchmarking Platform for Assessing Protein Language Models on Function-related Prediction Tasks

出典

https://www.biorxiv.org/content/10.1101/2025.04.10.648084v1

要旨

タンパク質言語モデルの機能予測精度をベンチマーキングするフレームワーク PROBE を紹介した論文です。

解説など

筆者らは、過去にタンパク質言語モデルの性能を評価するための方法論である PROBE を提案しています。

Learning functional properties of proteins with language models - Nature Machine Intelligence

Deep learning methods have in recent years shown promising results in characterizing proteins and extracting complex sequence–structure–function relationships. ...

本論文では、そのコードを Github リポジトリに公開し、さらにウェブアプリとして公開したことを報告しています。またこのPROBE を活用して、ESM3 など近年報告されたマルチモーダルな PLM の性能も評価しています。

まずは、PROBE について概説します。筆者らはベンチマークとして以下４つの指標を通じて、その PLM のタンパク質の機能予測性能を評価しています。

semantic similarity inference: GOアノテーションを通じたタンパク質間の機能の関係性
ontology-based protein function prediction: 正しいGOタームのアサイン精度
drug target family classification: スーパーファミリー分類
protein-protein binding affinity estimation: 変異による PPI 相互作用活性の変化予測

1～3 は評価に UniProt を中心としたデータセットを使用し、４は SKEMPIデータを利用しています。

本論文でベンチマークしているモデルは非常に多様です。下記にそのリストをお示します。ツールには、自身でエンベディングをアップロードすることで、この他の PLM の評価にも適用できるように実装されています。

Classical
- BLAST
- HMMER
- AAC
- APAAC
- K-Sep
- PFAM
Small-scale
- CPCProt
- Gene2Vec
- Learned-Vec
- Mut2Vec
- ProtVec
- TCGA-Embedding
Large-scale
- ESM-1b
- MSA-Transformer
- ProtTrans
- SeqVecTAPE
- UniRep
- ESM2
Large-scale Multimodal
- ESM3
- ProstT5
- SaProt

ベンチマークの結果としては、総じてマルチモーダルなモデル（ESM3、ProstT5、SaProt）が良い結果でした。この記事では protein-protein binding affinity estimation に特化して詳細に解説しますが、予測対象は変異体の KD 変化で、予測と真値データとの差を以下３つの評価指標で検証しています。

Pearson 相関係数
Mean Squared Error (MSE)
Mean Absolute Error (MAE)

すべてのモデルの中でも最も良い成績だったのは、ProtALBER です。そのあとに、ESM2, ESM-1b, ESM3 などが続きます。意外なのは、ProstT5 の性能が悪いことです。ベースモデルの ProtT5 より悪化しているのですが、原著論文に記載のとおり、binding residues に関わる学習に失敗している可能性がありそうです。

コードはこちらから。

GitHub - kansil/PROBE: Trainable representation analysis study repository

Trainable representation analysis study repository - kansil/PROBE