SEPIA:合成エピトープと大規模実験データで広げる、抗体デノボ設計のための構造学習基盤

論文タイトル

The Synthetic Epitope Atlas: High-Throughput Design and Validation of De Novo Antibody-Antigen Complexes

出典

Just a moment...

要旨

本研究では、抗体(特にVHH/ナノボディ)のデノボ設計における大きな課題である「学習用の抗体-抗原構造データ不足」を解決するため、計算設計した合成エピトープタンパク質(SEP)と高スループット結合測定(AlphaSeq)を組み合わせ、SEPIA(Synthetic Epitope Atlas)という大規模データ基盤を構築しています。

解説など

抗体デノボ設計(ゼロから新しい抗体を計算設計すること)は近年急速に進歩していますが、学習データの中心であるPDB(Protein Data Bank)には、抗体-抗原複合体データがまだ限られています。

そこで著者らは、VHHに結合するよう人工的に設計したSEP(Synthetic Epitope Proteins) を大量に作り、その結合可否を実験で検証することで、構造・配列・結合性を統合した新しい訓練データを能動的に生成しました。

論文のFigure 1では、SEPIAワークフローが示されています。

  • 既知VHH構造を出発点に、構造誘導型デザインパイプラインでSEP候補を数十万規模で生成
    • RFDiffusion → ProteinMPNN → Boltz-2
  • フィルタリング後、AlphaSeqで多数ペアを実験評価
  • 強く特異的に結合したものを「正例 pseudo-structure」、高信頼設計だが結合しないものを「負例 pseudo-structure」として整理
  • それらを用いてABACUSという結合分類モデルを学習
    • Boltz-2の内部表現を入力特徴として利用し、その上に独自のinterface-aware classifier headを構築

具体的には本文に以下の記載があります。

  • 190種類のVHHに対して45,430個のSEPを設計
  • 26 million(2,600万超)のon/off-target affinity測定
  • 1,161件のvalidated positive pseudo-structures
  • 75,000超のVHH/SEP変異体データ

ここでいうpseudo-structureは、実際の共結晶構造ではなく、「計算予測構造+実験的な結合検証」により支持された擬似的な構造学習サンプルです。つまり、原子レベルで完全確定した構造ではない一方、大規模かつ機械学習向きという特徴があります。

本研究により構築されたABACUSモデルを、VHHのデノボデザインタスクにおける in silico スクリーニングに活用したところ、分類上位10%で4倍以上のenrichmentを示したとされています。これはipSAEに比べて優れたenrichment ratioだったとのことです。

一般的には、機械学習性能はモデルだけでなくデータ多様性に強く依存するとされています。その意味でSEPIAは、自然界由来データの不足を人工設計+実験で補う“prospective data engine”として位置づけられます。