【抗体デザイン】大規模タンパク質言語モデルを抗体配列生成用にファインチューニングしたモデル AbGPT について

論文タイトル

AbGPT: De Novo Antibody Design via Generative Language Modeling

出典

AbGPT: De Novo Antibody Design via Generative Language Modeling
The adaptive immune response, largely mediated by B-cell receptors (BCRs), plays a crucial role for effective pathogen neutralization due to its diversity and a...

要旨

ProtGPT2 を抗体配列情報でファインチューニングさせた生成モデル AbGPT を紹介した論文です。

解説など

抗体配列生成に活用できる GPT ベースのデコーダーモデルの紹介になります。このカテゴリにおける既存の手法には、

  • ProGen2-OAS
  • IgLM

などがあります。これらは GPT のネットワークアーキテクチャを利用して抗体配列を事前学習の訓練データとして訓練させたモデルです。筆者らは既存のモデルの課題として、抗体配列だけではデータ数が少ないこと、タンパク質共通の汎用的な特徴を捉えられないと仮説をたてました。そこで、一般的なタンパク質データセットを学習させた PLM をベースに抗体配列データを用いてファインチューニングすることより、既存のモデルよりさらに高精度に抗体の特徴をとらえた配列を実現することを試みています。筆者らはこの生成パイプラインを AbGPT と名付けています。

具体的には、ProtGPT2 を事前学習モデルとして活用してファインチューニングモデルを構築しました。ファインチューニング用のデータセットとしては、AntiBERTa の学習に用いられた OAS 由来の71.98M の抗体配列を使用しています。

さらなる工夫として学習されたモデルから配列を生成する際には、妥当な配列を生成するためにいくつかのフィルタリング工程を人為的に設定しています。

top-k sampling により生成される配列の多様性を制御するとともに、repetition penalty を設定しアミノ酸の繰り返し配列を防いでいます。また、生成される配列長も重鎖、軽鎖それぞれ天然に由来する配列を参考に妥当な長さの範囲に制限し、パープレキィティが13を下回る配列を選抜しています。

筆者らは、このような条件をもとに AbGPT から非条件付きで生成された 15,000個 の配列を統計的に解析して AbGPT の性能を評価しています。生成された各配列は次のような指標を用いてインシリコで評価されています。

  • 溶解度:CamSol method
  • 凝集度:AGGRESCAN
  • 構造多様性:AlphaFold2 (pLDDT)
  • ヒトらしさ:OASis / BioPhi

生成された配列の特徴の一部を言及すると、次のような傾向がありました。

  • 高溶解度かつ低凝集度の配列が高頻度に出現
  • 天然のレパトアと比べるとやや短い配列長の出現頻度が高い
  • ジャームラインとしてIGHV3が高頻度に出現(配列長制限の影響が大きそう)

本手法では、特定の抗原結合活性を与えることを意図した条件付きの配列生成はできません。構造情報の活用や個別タスクに適したファインチューニングと組み合わせて、さらなる可能性が示されることを期待しています。