論文タイトル
Exploring Protein Language Model Architecture-Induced Biases for Antibody Comprehension
出典
Exploring Protein Language Model Architecture-Induced Biases for Antibody Comprehension
Recent advances in protein language models (PLMs) have demonstrated remarkable capabilities in understanding protein sequences. However, the extent to which dif...
要旨
Protein Language Model(PLM)の「アーキテクチャや事前学習の違い」が、抗体特異的な生物学的特徴(CDR、V遺伝子、SHMなど)をどのようなバイアスとして学習させているのか?という問いに答える検証結果を公開しています。
解説など
本研究では、「PLMは抗体配列をよく分類できる」という近年の進歩について、
- なぜできるのか
- どのモデルが、抗体生物学の“何”を理解しているのか
- 理解の仕方にアーキテクチャ依存の癖(bias)があるのか
を検証しています。
本検証で比較した言語モデルは次の4種類です。
| モデル | 特徴 |
| AntiBERTa | 抗体配列特化(RoFormer系、抗体データで事前学習) |
| ESM2 | 大規模タンパク質配列PLM(汎用タンパク質) |
| BioBERT | 生物医学テキスト向けBERT(自然言語の生物学的知識で学習) |
| GPT-2 | 自然言語モデル(生物学的事前知識なし・対照群) |
これらのモデルを、Rhesus macaque(アカゲザル)の抗体重鎖可変領域(VH)配列と抗原特異性の3クラス分類 (HIV+, Pn3+, Pn3-) がアノテートされたデータセットを使って、抗原特異性分類予測を解くためのモデルに転移学習させています。
結果として、汎用 GPT-2 を含むすべての PLM で高精度を示し「当てるだけ」なら 抗体理解は必須ではないということが示されました。
埋め込み空間を可視化したところ、
- AntiBERTa / BioBERT / ESM2
- V遺伝子ファミリーで明確にクラスタ分離
- SHM(Somatic Hypermutation)量で連続的な構造
- IgH isotype(IgM, IgGなど)すら推定可能
- GPT-2
- クラスタはできるが、生物学的に意味のある分離ではない
という、GPT-2とそれ以外のモデルとの違いが確認されています。
さらに、Attentionの重みを解析すると、AntiBERTaとそれ以外のモデルとの違いも確認できます。
- AntiBERTa
- 明確にCDR1 < CDR2 < CDR3
- → 抗体生物学と完全一致
- ESM2 / BioBERT
- N末端(V遺伝子領域)に強い注意
- CDRも見るが、AntiBERTaほど鋭くない
これらの結果から、抗体PLMの性能差は「何を見て学習してきたか」に由来し、生物学的知識を適切に与えれば、汎用PLMでも抗体特化モデルに近づけることができることを示しています。

