【抗体DB】機械学習に適した抗体・抗原PPIデータベース NAStructuralDBを紹介!

論文タイトル

NAStructuralDB : Structural database to facilitate computational studies of molecular modeling and recognition of proteins with special focus on antibody-antigen interactions

出典

Just a moment...

要旨

抗体・ナノボディ・抗原・一般タンパク質複合体を対象に、構造的・相互作用的特徴を網羅的にアノテーションした新しい構造データベース「NAStructuralDB」を紹介しています。

解説など

この記事では、抗体・抗原複合体の新規データベース NAStructuralDB を紹介します。このデータベースは、既存の SAbDab や AbDb では対応しきれない次の課題を解決することを目的としています:

  • 冗長性除去(train/test漏れ防止)
  • paratope/epitopeの自動抽出
  • 接触情報(分子内・分子間)の体系的整理
  • Nanobody 特有の単鎖構造への対応
  • 機械学習モデル入力用フォーマット(CSV, JSON, Parquet)

他のDBとの比較した場合の主な特徴としては、以下が挙げられます。

  • 抗体・抗原複合体情報だけでなく、参照用に一般タンパク質のPPIデータも含むこと
  • 唯一抗体鎖+抗原鎖の複合的クラスタリングを実施していること
  • Parquet形式でデータ出力が可能なこと

ライセンスの観点から非商用でのみ使用可能です。

本文では、このデータベースを使って抗体・抗原相互作用のPPIの特徴を分析しています。

(1) 接触距離の定義検討(Fig. 2–3)

  • heavy-atom距離での有意接触領域は3–4Å
  • Cα距離では4–5Å

(2) 溶媒露出率 (tRSA) 分布(Fig. 4–5)

  • 大きいタンパク質ほど平均RSAが低下(埋没残基が増加)
  • 7.5% tRSA閾値が埋没残基の解析に最適

(3) 埋没面積と距離閾値(Fig. 6)

  • 主要な相互作用は3–4Å範囲で表面積増加が最大
  • PPIは多様性が高く、抗体-抗原はより安定的

(4) 残基の界面頻度(Table 9)

  • 芳香族(Tyr, Trp)・極性残基(Asn)が界面で富化
  • 疎水性(Leu, Val, Ile)・Cysは減少
  • 抗体側では特にTyr, Trp, Asnが顕著に多い

データベースはこちらからアクセスできます。

https://naturalantibody.com/na-structural