【抗体デザイン】抗原・抗体結合に関わる最大規模のデータベースASDについて

論文タイトル

ASD: Antigen-Specific Antibody Database

出典

ASD: Antigen-Specific Antibody Database
The development of computational models addressing therapeutic antibodies faces significant challenges due to the scarcity of data. A critical data element is t...

要旨

抗体–抗原相互作用データを110万件規模で統合し、抗体ML研究を可能にする包括的リファレンスDBを構築した論文です。

解説など

筆者らは、ASD(Antigen-Specific Antibody Database)という名前の、抗体–抗原相互作用データを大規模統合したメタデータベースを構築しました。概要は次のとおりです。

  • 規模:
    • 約110万件の抗体–抗原相互作用
    • 865,153抗体
    • 9,575抗原
  • 特徴:
    • heavy / light 完全配列を原則保持
    • 抗原も 配列 or UniProt / PDB ID により明示
    • 親和性を 多様な形式(数値・カテゴリ・bool)で保持
    • データソースごとに confidence(信頼度)ラベルを付与

これだけのデータセットを集めるには、人の手によるキュレーションが欠かせません。具体的には、次のような工夫を行っています。

  • 抗体配列:mutation 記述から 親配列を再構築
  • 抗原配列:UniProt / PDB から自動取得 or 手動補完
  • OCR・LLM活用:PDF画像テーブル → Claude Opus による OCR → 人手検証
  • 重複データの平均化・統合
  • confidence(very_high / high / medium) をデータ源ごとに付与

本データベースには、以下の情報が構造化され格納されています。

  • heavy_sequence, light_sequence
  • antigen_sequence
  • affinity_type(例:KD, ΔΔG, IC50, fuzzy, bool)
  • affinity(数値 or カテゴリ)
  • confidence
  • RIOT による配列アノテーション:
    • CDR1/2/3
    • V/J/C gene
    • germline 推定(human / mouse / alpaca)

本データベースは現在公知に存在するデータを統合・可視化・再利用可能化することで、既存のデータの偏りやデータ不足などの現実的な制約を明らかにした点に価値があると、筆者らは主張しています。

興味深いのは、多数ある個別データセット間の多くが同一抗体・抗原を共有していることです。AIモデルの評価では独立したデータセットを用いた検証を行うことが多いですが、実態として訓練データを利用した検証になってしまっているケースが多く、モデルのパフォーマンスが過大評価されている可能性が高いことには注意が必要です。