【抗体デザイン】抗原・抗体結合に関わる最大規模のデータベースASDについて

論文タイトル

ASD: Antigen-Specific Antibody Database

出典

The development of computational models addressing therapeutic antibodies faces significant challenges due to the scarcity of data. A critical data element is t...

要旨

抗体–抗原相互作用データを110万件規模で統合し、抗体ML研究を可能にする包括的リファレンスDBを構築した論文です。

解説など

筆者らは、ASD（Antigen-Specific Antibody Database）という名前の、抗体–抗原相互作用データを大規模統合したメタデータベースを構築しました。概要は次のとおりです。

規模：
- 約110万件の抗体–抗原相互作用
- 865,153抗体
- 9,575抗原
特徴：
- heavy / light 完全配列を原則保持
- 抗原も配列 or UniProt / PDB ID により明示
- 親和性を多様な形式（数値・カテゴリ・bool）で保持
- データソースごとに confidence（信頼度）ラベルを付与

これだけのデータセットを集めるには、人の手によるキュレーションが欠かせません。具体的には、次のような工夫を行っています。

抗体配列：mutation 記述から親配列を再構築
抗原配列：UniProt / PDB から自動取得 or 手動補完
OCR・LLM活用：PDF画像テーブル → Claude Opus による OCR → 人手検証
重複データの平均化・統合
confidence（very_high / high / medium）をデータ源ごとに付与

本データベースには、以下の情報が構造化され格納されています。

heavy_sequence, light_sequence
antigen_sequence
affinity_type（例：KD, ΔΔG, IC50, fuzzy, bool）
affinity（数値 or カテゴリ）
confidence
RIOT による配列アノテーション：
- CDR1/2/3
- V/J/C gene
- germline 推定（human / mouse / alpaca）

本データベースは現在公知に存在するデータを統合・可視化・再利用可能化することで、既存のデータの偏りやデータ不足などの現実的な制約を明らかにした点に価値があると、筆者らは主張しています。

興味深いのは、多数ある個別データセット間の多くが同一抗体・抗原を共有していることです。AIモデルの評価では独立したデータセットを用いた検証を行うことが多いですが、実態として訓練データを利用した検証になってしまっているケースが多く、モデルのパフォーマンスが過大評価されている可能性が高いことには注意が必要です。