論文タイトル
On Pre-training Language Model for Antibody
出典
確認したいこと
深層学習を利用した、タンパク質構造予測・デザイン手法をベンチマークしています。
要旨
抗体に特化した既知の自然言語事前学習モデル(Pre-trained Antibody Language Models, PALM) についてベンチマークし、一般的なタンパク質を訓練データとする事前学習モデル (Pre-trained Protein Language Models, PPLM) との違いについて考察した論文です。
用語
- Pre-trained Protein Language Models: PPLM
- Pre-trained Antibody Language Models: PALM
解説など
本レポートで比較している事前学習モデルは以下のとおりです。
多様なタンパク質配列に基づく言語モデル(PPLM)
- ESM-1
- MSA-1b
抗体配列に基づく言語モデル(PALM)
- Ablang
- AntiBERTa
本論文で公開された抗体配列言語モデル
- EATLM
筆者らが開発したEATLMというモデルは、抗体の進化系譜を学習させたモデルです。具体的にはその抗体のジャームラインを予測する問題(ancestor germline prediction、AGP)と、変異導入箇所を予測する問題(mutation position prediction, MPP)を解いて学習したモデルになります。
筆者らは、これらのモデルの性能を評価するタスクとして4種類の問題を用意しました。
- 抗体特有の関連性(低):抗原結合予測(①)
- 抗体特有の関連性(中):パラトープ予測(②)
- 抗体特有の関連性(高):B細胞成熟(③)、抗体スクリーニング(④)
これを、抗体に関する予測タスクのためのベンチマークとして、AnTibody Understanding Evaluation (ATUE)と呼んでいます。ご覧の通り、それぞれのタスクには、抗体特有な性質との関連性で分類されています。抗体配列に特化して学習した言語モデルほど、高い関連性を持ったタスクが解きやすいのではないか、という仮説を検証することを意図して分類されています。
抗原結合予測は、HER2結合抗体群と非結合抗体群がそれぞれbinder/non-binderにラベル化されたデータセットをもとに、binder判定(2値分類)を行うタスクです。この論文で言及している抗体特有な性質というのは、抗体のマチュレーションに関連するものを指しており、使用したデータセットが単一のジャームライン配列であるため、ここで、関連性が(低)に区分されています。
パラトープ予測は、その名のとおりCDRの各ポジションに対して、抗原結合に関与しているかを分類するタスクです。ParaPredのデータを利用しています。
B細胞成熟は、各抗体配列を、immature、trasitional、mature、plasmacytes、memory IgD+、memory IgD-に分類するタスクです。
最後、抗体スクリーニングでは、SARS-CoV-2に結合する抗体かどうかを分類しています。データには感染患者さんのB細胞レパトアなどが用いられています。複数の患者さんに由来する様々なジャームラインの配列が混在することから、関連性が(高)に区分されています。
結果としては、①、②のタスクでは、ESM-1などのPPLMとAblangなどのPALMに大きな予測精度の差はみられていませんが、③、④のタスクでは、PALMの方がよい成績を収めています。またその改善程度はEATLMが最も優れていました。
限られたデータセットで結論付けるのは難しいですが、解くタスクで成績が変わる程度に、PPLM、PALM、EATLMそれぞれに特徴があり、新しいタスクを設定するたびに、今後も主要な検討項目となる得ることは理解しました。今回設定された4つのタスクの中で、PALMは、パラトープ予測において最も相対的に成績が良かったとのことです。


コメント