抗体と抗原の結合相手を配列から予測する:Contrastive Learning を使った CALM モデル

論文タイトル

Contrastive learning for antibody-antigen sequence-to-specificity prediction

出典

Just a moment...

要旨

抗体配列と抗原配列の一次構造のみから、どの抗体がどの抗原に結合するかを予測するための機械学習モデル「CALM」を提案した研究です。

解説など

筆者らは抗体抗原相互作用を予測するモデル CALM を提案しています。これは単に与えられた2分子が相互作用パートナーであるかを判定するモデルではなく、

  • 抗体配列と抗原配列を同じ表現空間にマッピングしていること
  • 与えられた配列集団から相互作用パートナーを検索するタスクを解くこと

に特徴があります。

具体的には、CALM は次の構造を持ちます。

1. Dual-encoder 構造

  • 抗体エンコーダ、抗原エンコーダそれぞれの配列を数値ベクトル表現に変換します。
  • 初期表現には次の既存モデルが使われています。
    • 抗体:AntiBERTy
    • 抗原:ESM-2
  • これらの埋め込みをさらに投影して共有 embedding 空間に配置すると説明されています。

2. Contrastive learning(コントラスト学習)

contrastive learning は、正しいペア → 近づける、間違ったペア → 遠ざける、という学習方法です。この研究では、抗体–抗原ペアおよびエピトープ–パラトープを使って学習します。

CLIP(画像とテキストを対応付けるモデル)と同様の考え方で、結合する抗体と抗原を embedding 空間で近くに配置するように学習します。

3. エピトープ・パラトープ情報の利用

さらに研究ではパラトープとエピトープを構造情報から抽出しています。具体的には5 Å以内の接触残基を binding site としてマスクを作成しています。このマスクを使うことで配列全体と結合部位のみの両方でモデルを評価しています。

学習データは SAbDab(Structural Antibody Database)から取得されています。フィルタリング後の4,138 ペアがその件数です。

評価は retrieval task(検索問題)として行われています。

例えば、抗体を入力して対応する抗原を検索、または抗原を入力して対応する抗体を検索します。

評価指標は、Recall@k(R@1, R@5, R@10)です。これは上位 k 個に正解が含まれる確率を意味します。

実施例を一部抜粋すると、未知抗原 (40% identity) では、下記の予測精度でした。

  • R@1 ≈ 2%
  • R@10 ≈ 9%

また抗原が既知分布にある条件では、抗体配列クラスタリング (90% identity) で、下記結果まで予測が改善します。

  • R@1 ≈ 18%
  • R@10 ≈ 33%

本手法は、抗原・抗体の双方が大規模ライブラリ化された中から相互作用ペアを探索する際に、通常の全組み合わせを評価するPPI予測モデルに比べて計算量を少なく実行できるのでおすすめです。