Surf2Spot:構造がなくても使える、表面情報ベースの結合ホットスポット予測モデル

論文タイトル

Surf2Spot: A Surface-Informed Geometry-Aware Model for Predicting Binder and Nanobody Design Hotspots

出典

Surf2Spot: A Surface-Informed Geometry-Aware Model for Predicting Binder and Nanobody Design Hotspots
Protein-protein interactions (PPIs) and nanobody-antigen interactions (NAIs) play essential roles in cellular function, yet accurate hotspot prediction remains ...

要旨

タンパク質の単量体構造から相互作用ホットスポットを予測する深層学習モデル「Surf2Spot」が提案されています。

解説など

本手法で提案された Surf2Spot は、タンパク質–タンパク質相互作用(PPI)やナノボディ–抗原相互作用(NAI)において、結合エネルギーに大きく寄与する「ホットスポット残基」を予測することが目的です。これまでには MaSIF のような相互作用パッチを検出するツールが存在しましたが、Surf2Spot はMaSIFの表面表現を中核に据えつつ、残基レベルのホットスポットを直接的に予測する方法で、よりバインダー設計への応用に適した実装になっています。

Surf2Spot の仕組み

Surf2Spot は、複数の情報源を統合した表面ベースのグラフニューラルネットワークとして設計されています。

  • 配列情報
    ProtTrans により、各アミノ酸を1024次元の埋め込み表現に変換しています。
  • 構造情報
    ESMFold により単量体構造を予測し、DSSP を用いて二次構造、主鎖ねじれ角、溶媒露出度(RSA)を算出しています。
  • 表面情報
    MaSIF パイプラインを用いて、タンパク質表面を点群(point cloud)として表現し、
    • 表面形状(shape index)
    • 静電ポテンシャル
    • 水素結合ポテンシャル
    • 疎水性
      といった物性値を各点に付与しています。

これらを統合した表面グラフを、Dynamic Graph CNN(DGCNN)で処理します。

NAI(ナノボディ–抗原)予測では、長距離相互作用を考慮するために Graph Attention Network(GAT) も追加されています。

学習データ

  • PPIホットスポット
    PDBbind2020およびGPSite由来の507複合体を使用しています。
    アラニン変異で結合自由エネルギーが2 kcal/mol以上変化する残基をホットスポットと定義しています。
  • NAIホットスポット
    SabDab由来の248ナノボディ–抗原複合体を使用しています。
    PPIとは異なり、NAIでは帯電・親水性残基が多い点が明示的に区別されています。

Surf2Spot は明示的なホットスポットラベル(ΔΔG等)を活用しており、これがモデルの質に大きく貢献すると考えられます。

結果

本文では、既存手法(SPOTONE、PPI-hotspotID)との比較において、

  • F1スコア
  • MCC
  • AUPRC

といった不均衡データに強い指標でSurf2Spotが高い性能を示したと記載されています。

また、Surf2Spotで予測したホットスポットを、

  • RFdiffusion + ProteinMPNN
  • BindCraft
  • IgGM(ナノボディ生成)

に入力することで、設計効率や成功率が向上したケーススタディが示されています。

プログラムコードはこちら。

GitHub - AnwZhao/Surf2Spot: Surf2Spot: A Geometric Model for Prediction of Epitope and Binding Sites on Target Protein
Surf2Spot: A Geometric Model for Prediction of Epitope and Binding Sites on Target Protein - AnwZhao/Surf2Spot