論文タイトル
Structural Plausibility Without Binding Specificity: Limits of AI-Based Antibody-Antigen Structure Prediction Confidence Scores
出典

要旨
AIによる抗体–抗原複合体構造予測は進歩していますが、正しい結合相手と誤った相手を区別できるかは十分検証されていません。本研究ではナノボディ–抗原複合体の大規模ベンチマークを構築し、AlphaFold3などの最新モデルの信頼度スコアが実際の結合特異性を十分に反映しないことを示しました。
解説など
定期的に報告がある構造メトリクスで結合特異性を予測できるのかについての評価結果です。
本論文では、ナノボディ-抗原複合体の大規模ベンチマークを実施しています。
評価フレームワーク
研究では、以下の2種類の複合体を作成しました。
- Real complexes(本物)
- PDBに登録されたナノボディ–抗原複合体(合計106例)
- Shuffled complexes(偽物)
- 別のナノボディと抗原を人為的に組み合わせたペア(合計11,000以上)
評価したAIモデル
本研究では、以下の構造予測モデルを比較しています。
- AlphaFold3
- Boltz-2
- Chai-1
評価指標
主に以下の指標を使用しています。
- ipTM
- DockQ
- Epitope recall(予測が実際のエピトープ残基をどれだけ再現したか)
結果
全 VHH × 全抗原の組み合わせで評価すると、正しいペアとシャッフルペアの ipTM スコア分布がほぼ重なり、AI は間違った相手でも高スコアを出すことが多いことが示されたと主張しています。しかしAF3 では、正しいペアとシャッフルペアで ipTM 分布の差が認められています。
AI モデルは多くの場合、steric clash が少なく、幾何的に自然な複合体構造を生成します。これはシャッフルペアでも同様の傾向のためこれらの指標は結合特異性の判定には利用できません。
構造のサンプリング数を増やすと DockQ を改善するモデルは増えますが、ipTM はほとんど変化しないという傾向が現れました。
AI は抗体–抗原複合体の「それっぽい構造」は作れるものの、正しい結合相手を見分ける能力はまだ限定的である、というのが論文全体の主張です。しかし AF3 では DockQ スコアと ipTM の相関がみられる点は期待がもてます。
また結合特異性の判定が難しくても、DockQ の高いモデルが作成できることや epitope recall が高いことから、リード最適化用に活用できる構造モデルを生成する目的では機能するかもしれません。

