【抗体構造予測】Tencent AI が最新の抗体構造予測モデル tFold を開発

論文タイトル

Fast and accurate modeling and design of antibody-antigen complex using tFold

出典

https://www.biorxiv.org/content/10.1101/2024.02.05.578892v1

要旨

深層学習を活用した抗体構造予測モデル tFold を紹介した論文です。

解説など

最新の深層学習を活用した抗体構造予測モデルです。中国の Tencent AI Lab からの報告になります。筆者らが開発した tFold には、以下の2つのモードがあります。

  • tFold-Ab: 抗体構造予測モデル
  • tFold-Ag: 抗体・抗原複合体構造予測モデル

まず tFold-Ab の説明からです。こちらは4つのモジュールから構成されています。

  • ESM-PPI: ESMをベースとした事前学習タンパク質言語モデル
  • Evoformer-Single: 配列とペアワイズ表現を生成
  • Structure module: 原子レベルの3次元構造を生成
  • Recycling module: 予測結果を逐次更新しながら、予測の質を改善

つぎに、tFold-Ag は、3つのモジュールから構成されています。

  • Antibody feature generation module: tFold-Ab モデルを再利用
  • Antigen feature generation module: AF2 モデルを活用
  • AI-driven flexible docking module

AI-driven flexible docking module はさらに以下の2つのモジュールから構成されます。これにより、ドッキングの配向だけでなく、抗体・抗原単体の構造そのものも更新することで、複合体構造予測の精度のさらなる向上を見込みます。

  • specially designed feature fusion module
  • complex structure prediction module

ベンチマークの結果から、tFold-Abは、次の既存のモデルに比べて CαRMSD の優れた構造モデルが生成されることが示されました。

  • AlphaFold-Multimer
  • IgFold
  • EquiFold
  • Uni-Fold
  • ImmuneBuilder
  • DeepAb
  • OmegaFold
  • ESMFold
  • HelixFold

tFold は ESM-PPI を活用しているため計算速度も高速で、MSA ベースの AlphaFold と比較して、5,367倍の速さでモデルを生成することができます。

複合体構造を予測する tFold-Ag でも同様に、通常のFab構造予測で高い性能を示しています。nanobody に対しては、やや AlphaFold-Multimer のほうが高い成績なのが印象的で、やはりデータセットの充実度は予測精度に影響を及ぼすようです。

また tFold の sequence recovery module は、抗体配列の生成にも活用することができます。これを活用して標的抗原に適したCDRループのデノボデザインも原理的には可能です。モデルの事前訓練後のファインチューニングステップでマスキングプロセスを実行することで、デザイン用途にモデルを最適化することができます。実施例では、生成した配列の recovery rate が既報のモデルに比べて優れていることが示されています。

さらに tFold の計算速度の速さは、抗体のインシリコスクリーニングにとても有効です。別種の方法で生成した抗体配列を tFold で選抜する、という使い方もできるでしょう。

コードはこちらに公開されています。モデルの訓練コードはありませんが、実際に構造予測や CDR デザインは可能ですので、ぜひお試しください。

GitHub - TencentAI4S/tfold: open source code for Tencent tFold
open source code for Tencent tFold. Contribute to TencentAI4S/tfold development by creating an account on GitHub.