論文タイトル
De novo generation of antibody CDRH3 with a pre-trained generative large language model
出典
要旨
望みの抗原に結合する CDRH3 を生成する PALM と、エピトープ配列と抗体配列から結合親和性を予測するモデル(A2binder)を開発しています。
解説など
中国の Tencent AI Lab からの報告です。
本論文では、標的抗原に結合する抗体の CDR3 をインシリコでデザインする手法を紹介しています。本手法は、タンパク質の構造情報は積極的に扱わず、タンパク質のアミノ酸配列情報や結合親和性の情報に基づいて、配列生成・特性予測をする方法になります。
これまでにブログで紹介した手法の中だと、下記に示す論文が同種の問題を取り扱っています。
本手法ならではの特徴として、以下の点が挙げられます。
- Transformer ベースのモデルを活用した、エンベディングや配列生成手法
- 重鎖と軽鎖を、各鎖ごとに大規模データで学習してから、ペア情報と結合
- (実装として)任意の抗原配列から H3 配列を生成できる
ここからは、具体的な手法の紹介です。筆者らは、望みの抗原に結合する CDRH3 を生成する PALM (Pre-trained Antibody generative large Language Model) と、エピトープ配列と抗体配列から、結合親和性を予測するモデル(A2binder)を開発しています。
PALM は、抗原配列を入力として、H3 配列を生成するモデルですが、エンコーダとして ESM ベースの抗原モデルを、デコーダーとして Transformer ベースの 抗体 Roformer を使用したモデルです。具体的には、ペアのデータセットが欠如する問題を回避してモデルのパフォーマンスを向上させるために、多数の不対タンパク質配列でRoformer を事前トレーニングしています。続いて抗原抗体親和性データセットでモデルを微調整して評価します。最後に、微調整されたモデルと抗原抗体ペアリングデータを使用して、抗体の CDRH3 を生成する、という流れです。
A2binder は、大規模な事前トレーニング済みモデルを使用して、抗原と抗体の両方から配列特徴を抽出し、その後、MF-CNN を使用して特徴量を融合し、最終的な親和性予測を行います。
モデルの学習は次のとおりに行います。まず、対になっていない抗体の重鎖配列と軽鎖配列で 2 つの言語モデルをそれぞれ事前トレーニングします。次に、A2binder を構築し、ペアのアフィニティデータを使用して微調整します。最後に、事前トレーニングされた ESM2 モデルと Roformer モデルを使用して PALM を構築し、AI 生成の CDRH3 を設計および評価するためにペアの抗原 CDRH3 データでトレーニングします。
トレーニングデータには、OAS や この後の問題に役立つ CoV-AbDab を利用しています。
本手法の性能評価として、SARS-CoV2 バインダーの配列生成や親和性予測に取り組んでいます。
PALM による配列生成手法は、以下のモデルと比較評価しています。
- Rosetta
- Absolute!
一方、A2 binderによる親和性予測は、以下のモデルがベンチマークとなっています。
- ESM-F
- Ens-Grad
- Vanilla BERT
ほぼ、インシリコベースでの評価で、多様な抗原に対する汎化能は示されていないことが課題ですが、従来のコンセプトを高度なアーキテクチャで実装した実施例で、進歩性を感じました。