【抗体デザイン】アラニンリピートモチーフの出現を抑制する抗体設計手法 ASSD フレームワークを紹介

論文タイトル

Decoupled Sequence and Structure Generation for Realistic Antibody Design

出典

Decoupled Sequence and Structure Generation for Realistic Antibody Design
Recently, deep learning has made rapid progress in antibody design, which plays a key role in the advancement of therapeutics. A dominant paradigm is to train a...

要旨

繰り返し配列の出現を抑制した非自己回帰モデルベースの抗体デザイン手法 ASSD framework を紹介した論文です。

解説など

タンパク質配列の設計において、計算コストの改善や recovery rate の高い配列を生成する目的で、近年は自己回帰モデル以外の生成手法が採用される事例が増えてきました。MEAN や LM-Design はその一例です。

一方で、これらの手法の課題として、特定のアミノ酸が繰り返し出現するリピート配列が高頻度に出現することが挙げられます。文脈を正しく考慮できないと、特定のポジションによらずに出現しやすいアミノ酸 (A, R, G, Yなど) は繰り返し出現しやすくなってしまいます。

筆者らは、非自己回帰生成モデルのこのような課題を解決するために、モデルの損失に “composition-based objective” を導入することを試みました。このアーキテクチャを採用したデザイン手法を antibody sequence-structure decoupling (ASSD) framework と呼び、その性能を原著内で紹介しています。

ASSD framework は、

  • sequence generation
  • structure prediction

の2つに分かれます。MEAN のような手法は、配列と構造を同時に生成するアプローチですが、ASSD framework では配列モデルを生成した後に、その配列に基づいた構造をモデリングするシーケンシャルなプロセスを採用しています。

sequence generation では、先ほど言及した通り composition-based objective を導入した損失関数が定義され、REINFORCE trick と呼ばれる手法を用いて生成モデルが訓練されます。一方、structure prediction は、MEAN のアーキテクチャを採用しています。

筆者らは、SAbDab と RAbD のベンチマークデータを用いて、この手法の性能を評価しました。

下記の手法の性能も比較対象として示されています。

  • 自己回帰モデル
    • LSTM
    • AR-GNN
    • RefineGNN
  • 非自己回帰モデル
    • MEAN
    • LM-Design

全体的に非自己回帰モデルは、自己回帰モデルに比べて高い AAR や低い RMSD を示しています。そして非自己回帰モデルの中でも ASSD は他のモデルに比べて、AAR, RMSD についてわずかに良好な結果のようです。

一方で、自己回帰モデルは総じて ASSD を含む非自己回帰モデルに比べると繰り返し配列の割合が少ないことがわかります。そして非自己回帰モデルの中では、群を抜いて ASSD が低い繰り返し配列頻度を示すとのことです。

AAR/RMSD と繰り返し配列頻度はトレードオフの関係にあり、両方の完全な解決は現時点でも難しいという結果ですが、非自己回帰モデルの選択肢の中では、ASSD が優れていると本論文内の評価結果から言えそうです。

筆者らは、AAR/RMSD ベースの指標だけでなく、抗体の親和性増強やデノボデザインに本手法を応用して結合親和性に基づく性能評価も実施しています。いずれもウェットでの評価結果はありません。

コードはこちらです。

Build software better, together
GitHub is where people build software. More than 150 million people use GitHub to discover, fork, and contribute to over 420 million projects.