【抗体デザイン】抗体の設計にもRAGが活用される時代へ

論文タイトル

Retrieval Augmented Diffusion Model for Structure-informed Antibody Design and Optimization

出典

Retrieval Augmented Diffusion Model for Structure-informed Antibody Design and Optimization
Antibodies are essential proteins responsible for immune responses in organisms, capable of specifically recognizing antigen molecules of pathogens. Recent adva...

要旨

RAG を活用した抗体設計手法 RADAb を紹介した論文です。

解説など

上海交通大学からのレポートです。筆者らは初めて RAG を活用した抗体デザイン手法を発表しています。

RAG とは近年の大規模言語モデルに活用されている回答精度を向上する技術の一つです。モデルの事前学習とは別に外部情報をデータベースから検索し、その結果をプロンプトに組み込むことで予測精度を改善します。その性質から最新の情報を活用して回答を生成することができますし、その具体的な情報ソースを出力することができることが特徴です。

筆者らは外部情報として、PDB から抽出した CDR 様のループフラグメントのデータベースを自作で作成して RAG に活用することで、抗体のデザイン精度の向上を試みました。筆者らは開発した手法をRetrieval-Augmented Diffusion Antibody design model (RADAb)と命名しました。RADAb では、与えた鋳型抗体の CDR を再設計したり、その抗原結合活性を改善する変異体を設計することができます。

デザインのワークフローは、大きく以下の3つのレイヤに分類されます。

  1. RAG を活用して適合する CDR フラグメントの選択
  2. 入力抗体タンパク質から全体構造の特徴量を抽出
  3. CDR に焦点を当てた特徴量を抽出

①のステップでは、先ほど言及した PDB から抽出した CDR 様のループフラグメントのデータベースから、対象の CDR 構造に合致するフラグメントを選択します。選抜基準は主鎖骨格の RMSD で MASTER という公知の検索手法を活用しています。

②では、入力した鋳型抗体の可変領域全体の配列・構造特徴量を抽出します。各アミノ酸残基や残基間ペアに対して、アミノ酸の種類やCa座標、2面角の情報を取り出して、続くCDR-focused axial attentionレイヤに情報を渡します。

③では、①と②で得られる情報を組み合わせて特徴量の抽出が行われます。

筆者らは RADAb を活用して、

  • CDR 配列の再設計
  • 標的抗原に対する結合活性を改善する変異体設計

に取り組みました。

評価結果はすべて in-silico metrics に基づくものですが、下記の手法に比べて優れた設計性能を示すとのことです。

  • ProteinMPNN
  • ESM-IF1
  • Diffab-fix
  • AbMPNN

基盤生成モデルの改良とは別のアプローチとして、RAG による明示的なデータの活用がどれくらい設計性能の向上に役立つのか興味深いです。