【Pre-taining Language Model】抗体の事前学習言語モデルを総括！

論文タイトル

On Pre-training Language Model for Antibody

出典

On Pre-training Language Model for Antibody

Antibodies are vital proteins offering robust protection for the human body from pathogens. The development of general protein and antibody-specific pre-trained...

確認したいこと

深層学習を利用した、タンパク質構造予測・デザイン手法をベンチマークしています。

要旨

抗体に特化した既知の自然言語事前学習モデル（Pre-trained Antibody Language Models, PALM) についてベンチマークし、一般的なタンパク質を訓練データとする事前学習モデル (Pre-trained Protein Language Models, PPLM) との違いについて考察した論文です。

用語

Pre-trained Protein Language Models: PPLM
Pre-trained Antibody Language Models: PALM

解説など

本レポートで比較している事前学習モデルは以下のとおりです。

多様なタンパク質配列に基づく言語モデル（PPLM）

ESM-1
MSA-1b

抗体配列に基づく言語モデル（PALM)

Ablang
AntiBERTa

本論文で公開された抗体配列言語モデル

EATLM

筆者らが開発したEATLMというモデルは、抗体の進化系譜を学習させたモデルです。具体的にはその抗体のジャームラインを予測する問題（ancestor germline prediction、AGP）と、変異導入箇所を予測する問題（mutation position prediction, MPP）を解いて学習したモデルになります。

筆者らは、これらのモデルの性能を評価するタスクとして4種類の問題を用意しました。

抗体特有の関連性（低）：抗原結合予測（①）
抗体特有の関連性（中）：パラトープ予測（②）　
抗体特有の関連性（高）：B細胞成熟（③）、抗体スクリーニング（④）

これを、抗体に関する予測タスクのためのベンチマークとして、AnTibody Understanding Evaluation (ATUE)と呼んでいます。ご覧の通り、それぞれのタスクには、抗体特有な性質との関連性で分類されています。抗体配列に特化して学習した言語モデルほど、高い関連性を持ったタスクが解きやすいのではないか、という仮説を検証することを意図して分類されています。

抗原結合予測は、HER2結合抗体群と非結合抗体群がそれぞれbinder/non-binderにラベル化されたデータセットをもとに、binder判定（2値分類）を行うタスクです。この論文で言及している抗体特有な性質というのは、抗体のマチュレーションに関連するものを指しており、使用したデータセットが単一のジャームライン配列であるため、ここで、関連性が（低）に区分されています。

パラトープ予測は、その名のとおりCDRの各ポジションに対して、抗原結合に関与しているかを分類するタスクです。ParaPredのデータを利用しています。

B細胞成熟は、各抗体配列を、immature、trasitional、mature、plasmacytes、memory IgD+、memory IgD-に分類するタスクです。

最後、抗体スクリーニングでは、SARS-CoV-2に結合する抗体かどうかを分類しています。データには感染患者さんのB細胞レパトアなどが用いられています。複数の患者さんに由来する様々なジャームラインの配列が混在することから、関連性が（高）に区分されています。

結果としては、①、②のタスクでは、ESM-1などのPPLMとAblangなどのPALMに大きな予測精度の差はみられていませんが、③、④のタスクでは、PALMの方がよい成績を収めています。またその改善程度はEATLMが最も優れていました。

限られたデータセットで結論付けるのは難しいですが、解くタスクで成績が変わる程度に、PPLM、PALM、EATLMそれぞれに特徴があり、新しいタスクを設定するたびに、今後も主要な検討項目となる得ることは理解しました。今回設定された4つのタスクの中で、PALMは、パラトープ予測において最も相対的に成績が良かったとのことです。