【Pre-taining Language Model】抗体の事前学習言語モデルを総括!

論文タイトル

On Pre-training Language Model for Antibody

出典

On Pre-training Language Model for Antibody
Antibodies are vital proteins offering robust protection for the human body from pathogens. The development of general protein and antibody-specific pre-trained...

確認したいこと

深層学習を利用した、タンパク質構造予測・デザイン手法をベンチマークしています。

要旨

抗体に特化した既知の自然言語事前学習モデル(Pre-trained Antibody Language Models, PALM) についてベンチマークし、一般的なタンパク質を訓練データとする事前学習モデル (Pre-trained Protein Language Models, PPLM) との違いについて考察した論文です。

用語

  • Pre-trained Protein Language Models: PPLM
  • Pre-trained Antibody Language Models: PALM

解説など

本レポートで比較している事前学習モデルは以下のとおりです。

多様なタンパク質配列に基づく言語モデル(PPLM)
  • ESM-1
  • MSA-1b
抗体配列に基づく言語モデル(PALM)
  • Ablang
  • AntiBERTa
本論文で公開された抗体配列言語モデル
  • EATLM

筆者らが開発したEATLMというモデルは、抗体の進化系譜を学習させたモデルです。具体的にはその抗体のジャームラインを予測する問題(ancestor germline prediction、AGP)と、変異導入箇所を予測する問題(mutation position prediction, MPP)を解いて学習したモデルになります。

筆者らは、これらのモデルの性能を評価するタスクとして4種類の問題を用意しました。

  • 抗体特有の関連性(低):抗原結合予測(①)
  • 抗体特有の関連性(中):パラトープ予測(②) 
  • 抗体特有の関連性(高):B細胞成熟(③)、抗体スクリーニング(④)

これを、抗体に関する予測タスクのためのベンチマークとして、AnTibody Understanding Evaluation (ATUE)と呼んでいます。ご覧の通り、それぞれのタスクには、抗体特有な性質との関連性で分類されています。抗体配列に特化して学習した言語モデルほど、高い関連性を持ったタスクが解きやすいのではないか、という仮説を検証することを意図して分類されています。

抗原結合予測は、HER2結合抗体群と非結合抗体群がそれぞれbinder/non-binderにラベル化されたデータセットをもとに、binder判定(2値分類)を行うタスクです。この論文で言及している抗体特有な性質というのは、抗体のマチュレーションに関連するものを指しており、使用したデータセットが単一のジャームライン配列であるため、ここで、関連性が(低)に区分されています。

パラトープ予測は、その名のとおりCDRの各ポジションに対して、抗原結合に関与しているかを分類するタスクです。ParaPredのデータを利用しています。

B細胞成熟は、各抗体配列を、immature、trasitional、mature、plasmacytes、memory IgD+、memory IgD-に分類するタスクです。

最後、抗体スクリーニングでは、SARS-CoV-2に結合する抗体かどうかを分類しています。データには感染患者さんのB細胞レパトアなどが用いられています。複数の患者さんに由来する様々なジャームラインの配列が混在することから、関連性が(高)に区分されています。

結果としては、①、②のタスクでは、ESM-1などのPPLMとAblangなどのPALMに大きな予測精度の差はみられていませんが、③、④のタスクでは、PALMの方がよい成績を収めています。またその改善程度はEATLMが最も優れていました。

限られたデータセットで結論付けるのは難しいですが、解くタスクで成績が変わる程度に、PPLM、PALM、EATLMそれぞれに特徴があり、新しいタスクを設定するたびに、今後も主要な検討項目となる得ることは理解しました。今回設定された4つのタスクの中で、PALMは、パラトープ予測において最も相対的に成績が良かったとのことです。

コメント