論文タイトル
A Benchmarking Platform for Assessing Protein Language Models on Function-related Prediction Tasks
出典
要旨
タンパク質言語モデルの機能予測精度をベンチマーキングするフレームワーク PROBE を紹介した論文です。
解説など
筆者らは、過去にタンパク質言語モデルの性能を評価するための方法論である PROBE を提案しています。

本論文では、そのコードを Github リポジトリに公開し、さらにウェブアプリとして公開したことを報告しています。またこのPROBE を活用して、ESM3 など近年報告されたマルチモーダルな PLM の性能も評価しています。
まずは、PROBE について概説します。筆者らはベンチマークとして以下4つの指標を通じて、その PLM のタンパク質の機能予測性能を評価しています。
- semantic similarity inference: GOアノテーションを通じたタンパク質間の機能の関係性
- ontology-based protein function prediction: 正しいGOタームのアサイン精度
- drug target family classification: スーパーファミリー分類
- protein-protein binding affinity estimation: 変異による PPI 相互作用活性の変化予測
1~3 は評価に UniProt を中心としたデータセットを使用し、4は SKEMPIデータを利用しています。
本論文でベンチマークしているモデルは非常に多様です。下記にそのリストをお示します。ツールには、自身でエンベディングをアップロードすることで、この他の PLM の評価にも適用できるように実装されています。
- Classical
- BLAST
- HMMER
- AAC
- APAAC
- K-Sep
- PFAM
- Small-scale
- CPCProt
- Gene2Vec
- Learned-Vec
- Mut2Vec
- ProtVec
- TCGA-Embedding
- Large-scale
- ESM-1b
- MSA-Transformer
- ProtTrans
- SeqVecTAPE
- UniRep
- ESM2
- Large-scale Multimodal
- ESM3
- ProstT5
- SaProt
ベンチマークの結果としては、総じてマルチモーダルなモデル(ESM3、ProstT5、SaProt)が良い結果でした。この記事では protein-protein binding affinity estimation に特化して詳細に解説しますが、予測対象は変異体の KD 変化で、予測と真値データとの差を以下3つの評価指標で検証しています。
- Pearson 相関係数
- Mean Squared Error (MSE)
- Mean Absolute Error (MAE)
すべてのモデルの中でも最も良い成績だったのは、ProtALBER です。そのあとに、ESM2, ESM-1b, ESM3 などが続きます。意外なのは、ProstT5 の性能が悪いことです。ベースモデルの ProtT5 より悪化しているのですが、原著論文に記載のとおり、binding residues に関わる学習に失敗している可能性がありそうです。
コードはこちらから。