論文タイトル
Fast and accurate modeling and design of antibody-antigen complex using tFold
出典
要旨
深層学習を活用した抗体構造予測モデル tFold を紹介した論文です。
解説など
最新の深層学習を活用した抗体構造予測モデルです。中国の Tencent AI Lab からの報告になります。筆者らが開発した tFold には、以下の2つのモードがあります。
- tFold-Ab: 抗体構造予測モデル
- tFold-Ag: 抗体・抗原複合体構造予測モデル
まず tFold-Ab の説明からです。こちらは4つのモジュールから構成されています。
- ESM-PPI: ESMをベースとした事前学習タンパク質言語モデル
- Evoformer-Single: 配列とペアワイズ表現を生成
- Structure module: 原子レベルの3次元構造を生成
- Recycling module: 予測結果を逐次更新しながら、予測の質を改善
つぎに、tFold-Ag は、3つのモジュールから構成されています。
- Antibody feature generation module: tFold-Ab モデルを再利用
- Antigen feature generation module: AF2 モデルを活用
- AI-driven flexible docking module
AI-driven flexible docking module はさらに以下の2つのモジュールから構成されます。これにより、ドッキングの配向だけでなく、抗体・抗原単体の構造そのものも更新することで、複合体構造予測の精度のさらなる向上を見込みます。
- specially designed feature fusion module
- complex structure prediction module
ベンチマークの結果から、tFold-Abは、次の既存のモデルに比べて CαRMSD の優れた構造モデルが生成されることが示されました。
- AlphaFold-Multimer
- IgFold
- EquiFold
- Uni-Fold
- ImmuneBuilder
- DeepAb
- OmegaFold
- ESMFold
- HelixFold
tFold は ESM-PPI を活用しているため計算速度も高速で、MSA ベースの AlphaFold と比較して、5,367倍の速さでモデルを生成することができます。
複合体構造を予測する tFold-Ag でも同様に、通常のFab構造予測で高い性能を示しています。nanobody に対しては、やや AlphaFold-Multimer のほうが高い成績なのが印象的で、やはりデータセットの充実度は予測精度に影響を及ぼすようです。
また tFold の sequence recovery module は、抗体配列の生成にも活用することができます。これを活用して標的抗原に適したCDRループのデノボデザインも原理的には可能です。モデルの事前訓練後のファインチューニングステップでマスキングプロセスを実行することで、デザイン用途にモデルを最適化することができます。実施例では、生成した配列の recovery rate が既報のモデルに比べて優れていることが示されています。
さらに tFold の計算速度の速さは、抗体のインシリコスクリーニングにとても有効です。別種の方法で生成した抗体配列を tFold で選抜する、という使い方もできるでしょう。
コードはこちらに公開されています。モデルの訓練コードはありませんが、実際に構造予測や CDR デザインは可能ですので、ぜひお試しください。