【抗体デザイン】Transformer で標的抗原に結合する抗体HCDR3をデザインする手法

論文タイトル

De novo generation of antibody CDRH3 with a pre-trained generative large language model

出典

Just a moment...

要旨

望みの抗原に結合する CDRH3 を生成する PALM と、エピトープ配列と抗体配列から結合親和性を予測するモデル（A2binder）を開発しています。

解説など

中国の Tencent AI Lab からの報告です。

腾讯元宝

腾讯元宝是基于腾讯混元大模型的AI应用，可以帮你写作绘画文案翻译编程搜索阅读总结的全能助手

本論文では、標的抗原に結合する抗体の CDR3 をインシリコでデザインする手法を紹介しています。本手法は、タンパク質の構造情報は積極的に扱わず、タンパク質のアミノ酸配列情報や結合親和性の情報に基づいて、配列生成・特性予測をする方法になります。

これまでにブログで紹介した手法の中だと、下記に示す論文が同種の問題を取り扱っています。

本手法ならではの特徴として、以下の点が挙げられます。

Transformer ベースのモデルを活用した、エンベディングや配列生成手法
重鎖と軽鎖を、各鎖ごとに大規模データで学習してから、ペア情報と結合
（実装として）任意の抗原配列から H3 配列を生成できる

ここからは、具体的な手法の紹介です。筆者らは、望みの抗原に結合する CDRH3 を生成する PALM (Pre-trained Antibody generative large Language Model) と、エピトープ配列と抗体配列から、結合親和性を予測するモデル（A2binder）を開発しています。

PALM は、抗原配列を入力として、H3 配列を生成するモデルですが、エンコーダとして ESM ベースの抗原モデルを、デコーダーとして Transformer ベースの抗体 Roformer を使用したモデルです。具体的には、ペアのデータセットが欠如する問題を回避してモデルのパフォーマンスを向上させるために、多数の不対タンパク質配列でRoformer を事前トレーニングしています。続いて抗原抗体親和性データセットでモデルを微調整して評価します。最後に、微調整されたモデルと抗原抗体ペアリングデータを使用して、抗体の CDRH3 を生成する、という流れです。

A2binder は、大規模な事前トレーニング済みモデルを使用して、抗原と抗体の両方から配列特徴を抽出し、その後、MF-CNN を使用して特徴量を融合し、最終的な親和性予測を行います。

モデルの学習は次のとおりに行います。まず、対になっていない抗体の重鎖配列と軽鎖配列で 2 つの言語モデルをそれぞれ事前トレーニングします。次に、A2binder を構築し、ペアのアフィニティデータを使用して微調整します。最後に、事前トレーニングされた ESM2 モデルと Roformer モデルを使用して PALM を構築し、AI 生成の CDRH3 を設計および評価するためにペアの抗原 CDRH3 データでトレーニングします。

トレーニングデータには、OAS やこの後の問題に役立つ CoV-AbDab を利用しています。

本手法の性能評価として、SARS-CoV2 バインダーの配列生成や親和性予測に取り組んでいます。

PALM による配列生成手法は、以下のモデルと比較評価しています。