IgPose:生成データ拡張で抗体–抗原結合予測を強化する新しい計算フレームワーク

論文タイトル

IgPose: A Generative Data-Augmented Pipeline for Robust Immunoglobulin-Antigen Binding Prediction

出典

IgPose: A Generative Data-Augmented Pipeline for Robust Immunoglobulin-Antigen Binding Prediction
Predicting immunoglobulin-antigen (Ig-Ag) binding remains a significant challenge due to the paucity of experimentally-resolved complexes and the limited accura...

要旨

抗体と抗原の結合構造予測におけるデータ不足の課題に対し、生成データ拡張と幾何学的GNNを組み合わせた新しいフレームワークIgPoseが提案されています。

解説など

本研究は、複合体構造が与えられたときに、「抗体(Ig)と抗原(Ag)が適切に結合しているか」を正しく見分けることを目的としています。つまりDockQスコアを直接的に予測する手法です。

筆者らは、IgPoseという、抗体–抗原複合体の結合ポーズを「分類(正しいかどうか)」と「スコアリング(どれくらい良いか)」の両方で評価できるフレームワークを提案しています。

方法

① データ拡張(最も重要なポイント)

論文では、以下のようなデータセットを構築しています:

  • 実験構造(SAbDab, STCRDab)
  • 生成構造(Chai-1, Boltz-2 によるデコイ構造)
  • 独自データベース SIDD(Structural Immunoglobulin Decoy Dataset)

特に、

  • 約9.2×10³の「正しいペアの構造」
  • 約10⁵の「非対応ペア(ネガティブ)」
    を人工的に生成しており、データ不足を大幅に補っています。

② モデル構造

IgPoseは以下の要素を組み合わせています:

  • EGNN(Equivariant Graph Neural Network)
    → 回転・並進に対して不変な幾何学的GNN
  • ESM-2 embedding
    → タンパク質配列から進化的情報を抽出する表現
  • GRU(ゲート付き再帰ユニット)
    → 長距離相互作用を扱うための仕組み

これにより、「構造(3D幾何)」+「配列(進化情報)」を同時に扱います。

③ タスク設計(2つのモデル)

  • IgPoseClassifier
    → 正しい結合かどうかを分類
  • IgPoseScore
    → DockQスコア(構造の正しさ指標)を回帰

この2段階設計により、「フィルタリング → ランキング」という実用的なワークフローを実現しています。

④ 工夫ポイント

  • interface周辺のみを使うk-hopサンプリング(最大600ノード)
  • CDRやエピトープに基づくpooling戦略

まとめると、IgPoseは、

  • 生成データによるデータ拡張
  • 幾何対称性を保つEGNN
  • 進化情報(ESM-2)の統合

を組み合わせている点が特徴的です。

本文では以下の結果が報告されています:

  • CASP-16などのベンチマークで既存手法より高性能
    • 物理ベース:Rosetta、Prodigyなど
    • DLベースのPPIスコアリング:TRScore、ProAffinity-GNNなど
    • 抗体特化:AbEpiTopeなど
    • CASP上位手法:MIEnsembles
  • AP(Precision-Recall AUC)が最大で約2倍向上
  • 回帰では Pearson相関 r = 0.653
  • Top-K選択ではTop-10で100%成功(SID-R)

プログラムコード

GitHub - arontier/igpose: Public repository for IGPose
Public repository for IGPose. Contribute to arontier/igpose development by creating an account on GitHub.