【抗体デザイン】抗体特化のPLMは、その他のモデルと何が違うのか

論文タイトル

Exploring Protein Language Model Architecture-Induced Biases for Antibody Comprehension

出典

Exploring Protein Language Model Architecture-Induced Biases for Antibody Comprehension
Recent advances in protein language models (PLMs) have demonstrated remarkable capabilities in understanding protein sequences. However, the extent to which dif...

要旨

Protein Language Model(PLM)の「アーキテクチャや事前学習の違い」が、抗体特異的な生物学的特徴(CDR、V遺伝子、SHMなど)をどのようなバイアスとして学習させているのか?という問いに答える検証結果を公開しています。

解説など

本研究では、「PLMは抗体配列をよく分類できる」という近年の進歩について、

  • なぜできるのか
  • どのモデルが、抗体生物学の“何”を理解しているのか
  • 理解の仕方にアーキテクチャ依存の癖(bias)があるのか

を検証しています。

本検証で比較した言語モデルは次の4種類です。

モデル特徴
AntiBERTa抗体配列特化(RoFormer系、抗体データで事前学習)
ESM2大規模タンパク質配列PLM(汎用タンパク質)
BioBERT生物医学テキスト向けBERT(自然言語の生物学的知識で学習)
GPT-2自然言語モデル(生物学的事前知識なし・対照群)

これらのモデルを、Rhesus macaque(アカゲザル)の抗体重鎖可変領域(VH)配列と抗原特異性の3クラス分類 (HIV+, Pn3+, Pn3-)  がアノテートされたデータセットを使って、抗原特異性分類予測を解くためのモデルに転移学習させています。

結果として、汎用 GPT-2 を含むすべての PLM で高精度を示し「当てるだけ」なら 抗体理解は必須ではないということが示されました。

埋め込み空間を可視化したところ、

  • AntiBERTa / BioBERT / ESM2
    • V遺伝子ファミリーで明確にクラスタ分離
    • SHM(Somatic Hypermutation)量で連続的な構造
    • IgH isotype(IgM, IgGなど)すら推定可能
  • GPT-2
    • クラスタはできるが、生物学的に意味のある分離ではない

という、GPT-2とそれ以外のモデルとの違いが確認されています。

さらに、Attentionの重みを解析すると、AntiBERTaとそれ以外のモデルとの違いも確認できます。

  • AntiBERTa
    • 明確にCDR1 < CDR2 < CDR3
    • → 抗体生物学と完全一致
  • ESM2 / BioBERT
    • N末端(V遺伝子領域)に強い注意
    • CDRも見るが、AntiBERTaほど鋭くない

これらの結果から、抗体PLMの性能差は「何を見て学習してきたか」に由来し、生物学的知識を適切に与えれば、汎用PLMでも抗体特化モデルに近づけることができることを示しています。