論文タイトル
DG-Affinity: predicting antigen–antibody affinity with language models from sequences
出典

要旨
抗体の抗原結合親和性を予測する深層学習モデル DG-Affinity の紹介です。
解説など
本論文の問題設定としては、抗原と抗体の構造情報を活用せずに、配列から抗体・抗原ペア間の結合親和性を予測することです。
これまで同種のニーズに対しては、構造情報に基いて経験的な力場を活用した物理化学的な手法が開発されてきました。代表的なツールに、Rosetta、Discovery Studio、FoldX などがあります。
近年では、配列または構造情報を利用し深層学習モデルから結合親和性を予測する手法も、下記の通り数多く公開されています。
- PIPR:配列ベースの手法。residual RCNNを利用。
- CSM-AB:構造ベースのジオメトリー情報を活用。Extra Treesアルゴリズムを利用。
- AREA-AFFINITY:構造ベースのモデル。混合モデル。
筆者らが開発した DG-Affinity も、これらの深層学習モデルを活用した手法の1つです。その特徴は、ConvNeXt というネットワークの活用にあります。ConvNeXt ネットワークは畳み込み層で構成されており、ビジョントランスフォーマーと ResNet のアーキテクチャからインスピレーションを得たものです。ConvNeXt は、そのマクロな設計や大きなカーネルサイズなどを活かして、モデルのパフォーマンスを向上させます。
このConvNeXtを利用した抗原結合親和性予測モデルである DG-Affinityでは、学習用のデータセットとして、
- sdAb-DB (Single Domain Antibody Database)
- Baidu PaddlePaddle 2021 (抗体親和性予測コンペ) のラウンド A データセット
の2つが活用されています。
各データセットには、その抗原と抗体の配列情報や親和性情報が格納されています。筆者らはその抗原配列には TAPE を、抗体配列には AbLang をエンベディングに利用して、ConvNeXtネットワークに接続しています。
モデルの性能評価として、下記に示す既存の手法と比較試験を実施しています。
- CSM-AB
- AREA-AFFINITY
- LISA
- CIPS
- Prodigy
- NIS
- CCharPPI
これら既存モデルでは、結合親和性の予測値と実測値でピアソン相関係数が0.3~0.5であるのに対して、DG-Affinityでは0.65の値を示しており、その優位性を主張しています。