【タンパク質構造予測】モデルの性能を評価するためのベンチマーク FoldBench と各モデルの性能比較結果

Articles

2026.02.08

論文タイトル

Benchmarking all-atom biomolecular structure prediction with FoldBench

出典

Benchmarking all-atom biomolecular structure prediction with FoldBench - Nature Communications

Accurate all-atom structure prediction is essential for biology and medicine, yet systematic benchmarks remain limited. Here, authors introduce FoldBench, a dat...

要旨

all-atom 構造予測モデルを、公平かつ低ホモロジー条件で横断評価するベンチマーク「FoldBench」と、ベンチマーク結果について紹介した論文です。

解説など

昨今高頻度に公開される構造予測モデルを性能評価するニーズが高まっていますが、既存の評価は、

タスクごとにバラバラ
訓練データとの類似性（memorization）を十分に制御していない
抗体・核酸・allosteric ligand などの難例が体系的に評価されていない

という問題がありました。本論文ではこの課題を解決したベンチマーク用データセット「FoldBench」を公開しています。

FoldBenchとは

データセット概要

1,522 biological assemblies
9つの予測タスク
AlphaFold3 の validation cutoff (2023-01-13) 以降のPDBのみ使用
厳密な低ホモロジーフィルタリング

タスク内訳

カテゴリ	ターゲット数
Protein monomer	334
DNA monomer	14
RNA monomer	15
Protein–Protein	279
Antibody–Antigen	172
Protein–Ligand	558
Protein–Peptide	51
Protein–DNA	330
Protein–RNA	70

本論文では、FoldBenchを使い、以下の５つの予測モデルを統一条件で評価しています。

AlphaFold 3
Boltz-1
Chai-1
HelixFold 3
Protenix

各予測モデルから以下の条件で構造モデリングと評価をおこなっています。

5 seeds × 5 samples
10 recycles
OpenStructure + DockQ / LRMSD / LDDT で評価

予測精度に関しては、当然 AlphaFold3 が最も高く、抗体・抗原複合体の予測タスクが最難関という結果です。以下はその他興味深い傾向です。

低分子リガンドとの相互作用ではリガンドの未知性が性能に大きく依存。多くのモデルが orthosteric site に誤配置する傾向にある。
タンパク質間相互作用では heteromer の方が homomer より DockQ が高い
domain-swapping のような大規模構造変化は AF3 のみが安定して再現
CDRH3の構造精度とDockQは反相関 → 正しいH3でもエピトープ予測精度が低い
サンプリング数を増やせば良構造は出る → 構造生成よりランキングがボトルネック