【タンパク質構造予測】モデルの性能を評価するためのベンチマーク FoldBench と各モデルの性能比較結果

論文タイトル

Benchmarking all-atom biomolecular structure prediction with FoldBench

出典

Benchmarking all-atom biomolecular structure prediction with FoldBench - Nature Communications
Accurate all-atom structure prediction is essential for biology and medicine, yet systematic benchmarks remain limited. Here, authors introduce FoldBench, a dat...

要旨

all-atom 構造予測モデルを、公平かつ低ホモロジー条件で横断評価するベンチマーク「FoldBench」 と、ベンチマーク結果について紹介した論文です。

解説など

昨今高頻度に公開される構造予測モデルを性能評価するニーズが高まっていますが、既存の評価は、

  • タスクごとにバラバラ
  • 訓練データとの類似性(memorization)を十分に制御していない
  • 抗体・核酸・allosteric ligand などの難例が体系的に評価されていない

という問題がありました。本論文ではこの課題を解決したベンチマーク用データセット 「FoldBench」を公開しています。

FoldBenchとは

データセット概要
  • 1,522 biological assemblies
  • 9つの予測タスク
  • AlphaFold3 の validation cutoff (2023-01-13) 以降のPDBのみ使用
  • 厳密な 低ホモロジーフィルタリング
タスク内訳
カテゴリターゲット数
Protein monomer334
DNA monomer14
RNA monomer15
Protein–Protein279
Antibody–Antigen172
Protein–Ligand558
Protein–Peptide51
Protein–DNA330
Protein–RNA70

本論文では、FoldBenchを使い、以下の5つの予測モデルを統一条件で評価しています。

  • AlphaFold 3
  • Boltz-1
  • Chai-1
  • HelixFold 3
  • Protenix

各予測モデルから以下の条件で構造モデリングと評価をおこなっています。

  • 5 seeds × 5 samples
  • 10 recycles
  • OpenStructure + DockQ / LRMSD / LDDT で評価

予測精度に関しては、当然 AlphaFold3 が最も高く、抗体・抗原複合体の予測タスクが最難関という結果です。以下はその他興味深い傾向です。

  • 低分子リガンドとの相互作用ではリガンドの未知性が性能に大きく依存。多くのモデルが orthosteric site に誤配置する傾向にある。
  • タンパク質間相互作用では heteromer の方が homomer より DockQ が高い
  • domain-swapping のような大規模構造変化は AF3 のみが安定して再現
  • CDRH3の構造精度とDockQは反相関 → 正しいH3でもエピトープ予測精度が低い
  • サンプリング数を増やせば良構造は出る → 構造生成よりランキングがボトルネック