論文タイトル
Generation of antigen-specific paired heavy-light chain antibody sequences using large language models
出典

要旨
ウイルス抗原に対して LLM モデルで抗体をデノボ設計する手法 MAGE を紹介した論文です。
解説など
ヴァンダービルト大学の Ivelin Georgiev ラボは、各種ウイルスに対する中和抗体の同定や抗体レパトアの解析を専門にしている研究室です。このラボに属する筆者らは、LLM ベースのデノボ抗体設計技術を本論文で報告しました。そのパイプライン名称を MAGE (Monoclonal Antibody GEnerator) と命名しています。
MAGE は、構造ベースではなく完全に配列ベースの設計アルゴリズムで、標的抗原のアミノ酸配列のみを入力情報として、その抗原に結合する抗体の VH / VL 配列を生成するように構築されています。構造情報を活用しないデノボ設計かつ、シングルドメインではない Fab のデザイン技術として非常に特徴があります。
MAGEは、事前学習されたタンパク質言語モデルを、抗体-抗原配列ペアでファインチューニングしたモデルです。ファインチューニング用の訓練データに特徴があり、パブリックにアクセスできるデータベース(CoV-AbDab, PlAbDab, SabDab)のほか、筆者らが作成した LIBRA-seq データベースを活用しています。LIBRA-seq は、標的抗原に結合する BCR レパトアの配列データセットです。ウイルス抗原を中心に計 18 抗原、20 ドナーの配列レパトアを有しています。
ファインチューニングした LLM モデルから、1,000 – 10,000 配列を生成し、以下のフィルタリングステップでウェットで評価する配列を選抜しています。
- BioPhi OASis で humanness をスコアリング。ヒトとの適合性が70%以下のものは除去。
- 全体集団から>85% identity の配列を抽出
また訓練データにはない配列を評価したいという動機から、以下の選抜を続けて行っています。
- H3もしくはVH germlineが訓練配列と完全一致の配列は取り除く
- 集団内で最頻のジャームライン配列5種から、VH identity が20-80% に収まる配列を選抜
筆者らは、上記の選抜により選ばれた20配列から、きちんと標的抗原に結合する配列を同定することに成功しています。検証用の標的抗原は以下の3種類です。
- SARS-CoV-2 RBD
- avian influenza virus (H5)
- RSV-A glycoprotein prefusion F (RSV-A)
RBD は、訓練データにバインダーが充実している陽性コントロールとして、それ以外の2つは訓練データには存在しない抗原として検証用に選択しています。訓練データ外の標的抗原にも適用できることから MAGE の汎用性が示唆されますが、データセットも検証用標的抗原もウイルス抗原にフォーカスしているので、それ以外のタンパク質ファミリーにどれくらい適用可能か不明なところです。
コードは公開されておらず、モデルのアーキテクチャや事前学習モデルも不明であることから、方法論の公開も待たれます。