【抗体デザイン】CDR定義を変化させる独自のデータ拡張手法で、抗体デザイン精度を向上！

論文タイトル

AbFlex: Designing antibody complementarity determining regions with flexible CDR definition

出典

https://academic.oup.com/bioinformatics/advance-article/doi/10.1093/bioinformatics/btae122/7623583?login=false

要旨

独自の data augumentation 手法を利用して、抗体設計用の深層学習モデルを開発した研究です。

解説など

深層学習モデルを活用した抗体設計手法についての論文です。

これまで、本ブログではさまざまな抗体設計モデルを紹介してきました。

筆者らの問題提起は、モデルに用いられる訓練データの最適な取り扱いにあります。タンパク質の配列を適切に扱うためにはアライメント情報が重要です。抗体には IMGT や Chothia、Kabat など様々なナンバリング定義が存在します。各アライメントは番号のラベリングルールが異なるだけでなく、CDR の領域にも違いが生じます。ここでナンバリングスキームが統一化されていないデータでモデルを訓練をすると、特定のナンバリングスキームを活用した訓練データが少なくなることや、利用頻度の高いナンバリングスキームのデータに対して過学習を起こすなど、予測精度に影響を与える可能性を筆者らは指摘しました。

これを防ぐために彼らは、一つの訓練データに対して、CDR 配列から ± k 残基の領域を含む配列群をCDR 配列と再定義して訓練データとして扱うことを試みました（k は任意の数字、本文では５残基）。１種類の配列に対して、-5残基領域、-4残基領域・・・、と複数の配列を用意できるので、さまざまなナンバリングスキームのCDR領域定義に対応できるうえに、data augumentation としての効果も期待できます。

このようなアプローチで訓練したモデルを筆者らは AbFlex と命名し活用しています。モデルのアーキテクチャは、equivalent graph neural network です。

本文では AbFlex を用いてベンチマークデータの抗体構造を予測した結果を紹介しています。既存の下記の手法に対して、CαRMSD や recovery rate を評価しており、ほぼ MEAN と同等の成績を示していることがうかがえます。