論文タイトル
AbDesign: Database of point mutants of antibodies with associated structures reveals poor generalization of binding predictions from machine learning models
出典
要旨
抗体の1残基変異データベース AbDesign の構築と、既存の機械学習予測モデルの限界を明らかにした研究です。
解説など
抗体と抗原の結合親和性を予測するモデルは、データの少なさとバイアスのある既存データセットによりその性能に限界があります。従来のデータセットとして有名なのは、SKEMPI や AB-Bind ですが、そのデータ数は抗体改変のデータに限定すると、それぞれ571、351個しかありません。またデータは主にアラニンスキャニングが中心でその他のアミノ酸改変のデータは乏しいのが実態です。
そこで筆者らはより均質かつ構造情報付きのデータベース AbDesign を構築して、既存モデルの汎化性能を検証しました。このデータセットは以下のような構成です。
- 対象: 7抗原に対する14抗体(各抗原に対し2抗体)、それぞれに結晶構造あり。
- 変異対象: 抗体のCDR-H3領域において、抗原と4.5Å以内の重原子接触残基を選定。
- 変異数: 1点変異を658種(+ WT14種) → 合計672配列。
- 測定法: ELISAによる結合力評価(WT比の吸光度比で定量)。
- 構造モデル:
- ABodyBuilder2(ABB2) による機械学習ベースの予測
- rotamerライブラリによる側鎖置換(conformation)
- モデルは OpenMM でエネルギー最小化
このデータを使って、下記の既存の親和性予測モデルの性能を評価しました。
- DSMbind(エネルギーベース、SE(3)対称)
- Binding-DDG-predictor(幾何グラフニューラルネットワーク)
- RDE-PPI(非教師あり、ロタマーエントロピー差に基づく)
すると、SKEMPI や AB-Bind のデータセットでは中程度の予測・実測相関をしめしますが、AbDesign ではほぼ無相関でした。特に非アラニン変異に対する予測性能は顕著に低下しています。
一方で、FoldX のような物理ベースの予測手法では、AbDesign でも中程度の相関を保っていたとのことです。
つまり既存のMLモデルは活用したデータに対してのみ良い成績を示し、汎化性能に乏しいことが判明しました。本論文では、MLと物理ベースのハイブロット手法が今後の展望として挙げられています。