論文タイトル
Antibody design using deep learning: from sequence and structure design to affinity maturation
出典
要旨
抗体開発に活用できる深層学習手法を概説したレビュー論文です。
用語
GDL: geometric deep learning
章立て
- 緒言
- 抗体の構造:重要な要素と構造的な課題
- 抗体の天然生成プロセスと構造
- 抗体・抗原相互作用
- ナノボディ:抗体の代替分子形
- 抗体開発の課題
- 抗体開発のためのデータベース
- 配列データベース
- 構造データベース
- 抗体開発技術の歴史
- 抗体開発の従来技術
- 従来技術の限界
- 深層学習前の計算機手法
- 深層学習前の計算機手法の課題
- 抗体開発の従来技術
- 深層学習を用いたタンパク質と抗体デザイン
- 抗体デザインの革新:配列と構造情報を活用した深層学習手法
- 構造ベースの DL モデル
- 配列ベースの DL モデル
- 構造・配列ベースの DL モデル
- Hallucination
- Diffusion
- 抗体構造予測の進展と DL の役割
- タンパク質フォールディングの進展
- 抗体フォールディングの進展
- 効率的な抗体デザインのための抗原・抗体相互作用予測
- GNN ベース手法
- Fingerprint ベース手法
- 配列ベース手法
- GNN ベース手法
- 抗体デザインと評価のためのドッキング予測
- ドッキング予測とデザインの統合手法
- 計算機による親和性増強
- 開発可能性を評価する計算機手法
- 抗体デザインの革新:配列と構造情報を活用した深層学習手法
- 結言
解説など
抗体開発に活用される深層学習手法を網羅的に解説した論文です。
各手法の原理や成果を説明するだけではなく、同じ目的の手法間で強みや弱み、おすすめ用途などを紹介している点が非常に有用です。また各原著論文で評価された手法の精度 (AAR, RMSD, ROC-AUCなど)が棒グラフとして可視化した形で手法間の比較をされている点も素晴らしいです。2024年6月に公開されているだけあって、最新の手法まで含まれています。
大項目として以下の内容が掲載されています。
- データベース
- 抗体生成(配列・構造)
- 抗体構造予測
- 抗体機能予測(親和性・開発可能性)
データベースは配列ならOAS、構造ならSAbDabを利用するケースが一般的です。SAbDabは公開データであれば継続的に取得・更新されるため汎用性は非常に高いですが、OASは多様で大規模なデータベースではあるものの包括性には限度があるので、状況に応じてPADやPLAbDabなどの代替データベースを活用することも有効です。
配列設計モデルに関しては、Transformerモデルが環境を席巻していますが、masked language model (BERTモデル) と GPT モデルで扱えるタスクに違いが生まれることに注意が必要です。代表的な BERT モデルとしては AbLang、GPT モデルとしては ProGen2-OAS や IgLM が挙げられます。
目的別に手法を分けると、エピトープ・パラトープ予測がアプローチの種類が多様で手法の数が多いという意味で最も混沌としています。各手法がエピトープとパラトープどちらを予測できるのか、もしくは PPI の有無(バインダー判定)だけを予測するのかなども様々です。評価用のデータセットが統一化されていないだけに、評価指標もまちまちで、モデルの優劣判断も難しいと思います。総合的に見ると、
- EPMP
- PINet
- dMaSIF
などが有望な手法だと感じます。
総じて複合体構造予測が最大の課題であることに大きな変化はありません。この根源的な課題に取り組むべくさらに構造情報を充実化する流れと、複合体構造が既知なタスクスペシフィックな課題に取り組む流れの2つが、2大潮流となるでしょう。