論文タイトル
The Synthetic Epitope Atlas: High-Throughput Design and Validation of De Novo Antibody-Antigen Complexes
出典
要旨
本研究では、抗体(特にVHH/ナノボディ)のデノボ設計における大きな課題である「学習用の抗体-抗原構造データ不足」を解決するため、計算設計した合成エピトープタンパク質(SEP)と高スループット結合測定(AlphaSeq)を組み合わせ、SEPIA(Synthetic Epitope Atlas)という大規模データ基盤を構築しています。
解説など
抗体デノボ設計(ゼロから新しい抗体を計算設計すること)は近年急速に進歩していますが、学習データの中心であるPDB(Protein Data Bank)には、抗体-抗原複合体データがまだ限られています。
そこで著者らは、VHHに結合するよう人工的に設計したSEP(Synthetic Epitope Proteins) を大量に作り、その結合可否を実験で検証することで、構造・配列・結合性を統合した新しい訓練データを能動的に生成しました。
論文のFigure 1では、SEPIAワークフローが示されています。
- 既知VHH構造を出発点に、構造誘導型デザインパイプラインでSEP候補を数十万規模で生成
- RFDiffusion → ProteinMPNN → Boltz-2
- フィルタリング後、AlphaSeqで多数ペアを実験評価
- 強く特異的に結合したものを「正例 pseudo-structure」、高信頼設計だが結合しないものを「負例 pseudo-structure」として整理
- それらを用いてABACUSという結合分類モデルを学習
- Boltz-2の内部表現を入力特徴として利用し、その上に独自のinterface-aware classifier headを構築
具体的には本文に以下の記載があります。
- 190種類のVHHに対して45,430個のSEPを設計
- 26 million(2,600万超)のon/off-target affinity測定
- 1,161件のvalidated positive pseudo-structures
- 75,000超のVHH/SEP変異体データ
ここでいうpseudo-structureは、実際の共結晶構造ではなく、「計算予測構造+実験的な結合検証」により支持された擬似的な構造学習サンプルです。つまり、原子レベルで完全確定した構造ではない一方、大規模かつ機械学習向きという特徴があります。
本研究により構築されたABACUSモデルを、VHHのデノボデザインタスクにおける in silico スクリーニングに活用したところ、分類上位10%で4倍以上のenrichmentを示したとされています。これはipSAEに比べて優れたenrichment ratioだったとのことです。
一般的には、機械学習性能はモデルだけでなくデータ多様性に強く依存するとされています。その意味でSEPIAは、自然界由来データの不足を人工設計+実験で補う“prospective data engine”として位置づけられます。

