【抗体デザイン】Transformer で標的抗原に結合する抗体HCDR3をデザインする手法

論文タイトル

De novo generation of antibody CDRH3 with a pre-trained generative large language model

出典

https://www.biorxiv.org/content/10.1101/2023.10.17.562827v1

要旨

望みの抗原に結合する CDRH3 を生成する PALM と、エピトープ配列と抗体配列から結合親和性を予測するモデル(A2binder)を開発しています。

解説など

中国の Tencent AI Lab からの報告です。

https://ai.tencent.com/ailab/en/paper/?page=1

本論文では、標的抗原に結合する抗体の CDR3 をインシリコでデザインする手法を紹介しています。本手法は、タンパク質の構造情報は積極的に扱わず、タンパク質のアミノ酸配列情報や結合親和性の情報に基づいて、配列生成・特性予測をする方法になります。

これまでにブログで紹介した手法の中だと、下記に示す論文が同種の問題を取り扱っています。

本手法ならではの特徴として、以下の点が挙げられます。

  • Transformer ベースのモデルを活用した、エンベディングや配列生成手法
  • 重鎖と軽鎖を、各鎖ごとに大規模データで学習してから、ペア情報と結合
  • (実装として)任意の抗原配列から H3 配列を生成できる

ここからは、具体的な手法の紹介です。筆者らは、望みの抗原に結合する CDRH3 を生成する PALM (Pre-trained Antibody generative large Language Model) と、エピトープ配列と抗体配列から、結合親和性を予測するモデル(A2binder)を開発しています。

PALM は、抗原配列を入力として、H3 配列を生成するモデルですが、エンコーダとして ESM ベースの抗原モデルを、デコーダーとして Transformer ベースの 抗体 Roformer を使用したモデルです。具体的には、ペアのデータセットが欠如する問題を回避してモデルのパフォーマンスを向上させるために、多数の不対タンパク質配列でRoformer を事前トレーニングしています。続いて抗原抗体親和性データセットでモデルを微調整して評価します。最後に、微調整されたモデルと抗原抗体ペアリングデータを使用して、抗体の CDRH3 を生成する、という流れです。

A2binder は、大規模な事前トレーニング済みモデルを使用して、抗原と抗体の両方から配列特徴を抽出し、その後、MF-CNN を使用して特徴量を融合し、最終的な親和性予測を行います。

モデルの学習は次のとおりに行います。まず、対になっていない抗体の重鎖配列と軽鎖配列で 2 つの言語モデルをそれぞれ事前トレーニングします。次に、A2binder を構築し、ペアのアフィニティデータを使用して微調整します。最後に、事前トレーニングされた ESM2 モデルと Roformer モデルを使用して PALM を構築し、AI 生成の CDRH3 を設計および評価するためにペアの抗原 CDRH3 データでトレーニングします。

トレーニングデータには、OAS や この後の問題に役立つ CoV-AbDab を利用しています。

本手法の性能評価として、SARS-CoV2 バインダーの配列生成や親和性予測に取り組んでいます。

PALM による配列生成手法は、以下のモデルと比較評価しています。

  • Rosetta
  • Absolute!

一方、A2 binderによる親和性予測は、以下のモデルがベンチマークとなっています。

  • ESM-F
  • Ens-Grad
  • Vanilla BERT

ほぼ、インシリコベースでの評価で、多様な抗原に対する汎化能は示されていないことが課題ですが、従来のコンセプトを高度なアーキテクチャで実装した実施例で、進歩性を感じました。