【抗体言語モデル】構造情報を取り入れた抗体の言語モデルAbMAPでAF2越え

論文タイトル

Learning the Language of Antibody Hypervariability

出典

https://www.biorxiv.org/content/10.1101/2023.04.26.538476v1.full

確認したいこと

深層学習を用いたタンパク質デザイン手法をベンチマークしています。

要旨

抗体構造情報を活用して、タンパク質言語モデルを転移学習させたモデル、AbMAP を紹介した論文です。

解説など

抗体配列に基づく最新の言語モデルの紹介です。既存の言語モデルとしては、AntiBERTa、AbLang、IgLMなどが代表的です。

これらに対して、本論文で紹介されている AbMAP は、転移学習を利用して、抗体構造と結合特異性の情報をモデルに組み込むことをコンセプトとしたモデルになります。

具体的には、以下の３点がポイントです。

天然のタンパク質全ての配列を包括的に学習したモデル（fundamental PLMs) をベースに
抗体のCDRのみに学習タスクを集中
構造と結合特異性を考慮したマルチタスク学習を活用

CDR のみに学習タスクを集中させる、という点について補足すると、抗体の可変領域には、CDR とフレームワークの２領域に分類されますが、抗原結合に関わる CDR のエンベディングへの寄与を大きくするために、元のエンベディングから、インシリコで予測した CDR 変異への寄与を差し引くことで、CDR 特有のコンテキストを強めるという手法を取り入れています。CDR の同定には ANARCI が用いられており、ANARCI で定義する CDR の前後2残基まで含めた配列を活用しています。

fundamental PLMs には、Bepler＆Berger、ESM-1b、ProBert が用いられています。構造情報としては、SAbDab に登録されている 3,785 の抗体構造を訓練と評価データに分けて使用しています。

筆者らは AbMAP を、抗体の構造予測、抗原結合に対する変異効果、パラトープの同定、機能予測（SARS-CoV2 中和能）に適用していました。

構造予測においては AF2 より優れ、OmegaFold と同等の性能を有していたとのことです。また、ヒト抗体レパトア解析の結果が興味深く、従来の知見から配列レベルでは、個体間でナイーブのレパトアには多様性があることが知られていましたが、AbMAPを通じて構造面・機能面を考慮すると、個体間差は小さく見えたようです。