論文タイトル
IgPose: A Generative Data-Augmented Pipeline for Robust Immunoglobulin-Antigen Binding Prediction
出典
IgPose: A Generative Data-Augmented Pipeline for Robust Immunoglobulin-Antigen Binding Prediction
Predicting immunoglobulin-antigen (Ig-Ag) binding remains a significant challenge due to the paucity of experimentally-resolved complexes and the limited accura...
要旨
抗体と抗原の結合構造予測におけるデータ不足の課題に対し、生成データ拡張と幾何学的GNNを組み合わせた新しいフレームワークIgPoseが提案されています。
解説など
本研究は、複合体構造が与えられたときに、「抗体(Ig)と抗原(Ag)が適切に結合しているか」を正しく見分けることを目的としています。つまりDockQスコアを直接的に予測する手法です。
筆者らは、IgPoseという、抗体–抗原複合体の結合ポーズを「分類(正しいかどうか)」と「スコアリング(どれくらい良いか)」の両方で評価できるフレームワークを提案しています。
方法
① データ拡張(最も重要なポイント)
論文では、以下のようなデータセットを構築しています:
- 実験構造(SAbDab, STCRDab)
- 生成構造(Chai-1, Boltz-2 によるデコイ構造)
- 独自データベース SIDD(Structural Immunoglobulin Decoy Dataset)
特に、
- 約9.2×10³の「正しいペアの構造」
- 約10⁵の「非対応ペア(ネガティブ)」
を人工的に生成しており、データ不足を大幅に補っています。
② モデル構造
IgPoseは以下の要素を組み合わせています:
- EGNN(Equivariant Graph Neural Network)
→ 回転・並進に対して不変な幾何学的GNN - ESM-2 embedding
→ タンパク質配列から進化的情報を抽出する表現 - GRU(ゲート付き再帰ユニット)
→ 長距離相互作用を扱うための仕組み
これにより、「構造(3D幾何)」+「配列(進化情報)」を同時に扱います。
③ タスク設計(2つのモデル)
- IgPoseClassifier
→ 正しい結合かどうかを分類 - IgPoseScore
→ DockQスコア(構造の正しさ指標)を回帰
この2段階設計により、「フィルタリング → ランキング」という実用的なワークフローを実現しています。
④ 工夫ポイント
- interface周辺のみを使うk-hopサンプリング(最大600ノード)
- CDRやエピトープに基づくpooling戦略
まとめると、IgPoseは、
- 生成データによるデータ拡張
- 幾何対称性を保つEGNN
- 進化情報(ESM-2)の統合
を組み合わせている点が特徴的です。
本文では以下の結果が報告されています:
- CASP-16などのベンチマークで既存手法より高性能
- 物理ベース:Rosetta、Prodigyなど
- DLベースのPPIスコアリング:TRScore、ProAffinity-GNNなど
- 抗体特化:AbEpiTopeなど
- CASP上位手法:MIEnsembles
- AP(Precision-Recall AUC)が最大で約2倍向上
- 回帰では Pearson相関 r = 0.653
- Top-K選択ではTop-10で100%成功(SID-R)
プログラムコード
GitHub - arontier/igpose: Public repository for IGPose
Public repository for IGPose. Contribute to arontier/igpose development by creating an account on GitHub.

