【抗体デザイン】pLM の確率分布からから直接サンプリングする抗体最適化設計手法 ALLM-Ab とは

論文タイトル

ALLM-Ab: Active Learning-Driven Antibody Optimization Using Fine-tuned Protein Language Models

出典

Just a moment...

要旨

アクティブラーニング × 言語モデル微調整による抗体最適化フレームワークである ALLM-Ab に関する研究です。

解説など

抗体の最適化手法に関わる論文の紹介です。

従来、大規模タンパク質言語モデル(pLMs) が配列の「言語性」から構造・機能を予測するために使われていますが、結合親和性向上など機能を直接最適化するために特化するアプローチではありませんでした。

一方で既存の最適化手法(ベイズ最適化やGA)には以下の課題がありました

  • pLM の知識を十分に活かせない(単なる特徴量抽出にとどまる)
  • ランダム変異ベースの探索で効率が悪い、もしくは事前に定義されたライブラリの範囲からしか探索できない

これらの課題を解決するために筆者らは、以下のコア要素を含む最適化手法 ALLM-Ab を開発しました。

  • 効率的なファインチューニング + Learning-to-Rank
    • LoRA によるパラメータ効率の良いファインチューニング。
    • ListMLE を用い、親和性スコアの絶対値ではなく「ランキング」を最適化。
  • 確率分布からの直接サンプリング
    • GAではなく、微調整済み pLM の確率分布から直接変異を生成。
    • wild-type 配列に対するバイアスを導入して過剰な変異導入を防止。
    • Approximate fitness score を導入し、推論を高速化。
  • 多目的最適化(Hypervolume maximization)
    • 親和性(Flex ddGやDMSスコア)に加え、以下の開発性指標を同時に最適化:
      • AbLang2 Perplexity(抗体らしさの保持)
      • 等電点(pI)
      • 疎水性(GRAVYスコア)
      • Instability index
    • Hypervolumeに基づき、複数指標を同時に最適化。

手法は、BindingGYMの DMSデータや、Flex ddG によるインシリコ指標をもとに評価しています。

DMS データを活用したオフライン実験の結果によると、スコアモデルとしては Gaussian process regression (GPR) が既存データに基づくラベル付き予測では最も性能が良いものの、未知領域探索では pLM の方が強いことが示されています。

さらにつづいて、pLM の利用にフォーカスしたオンライン実験の結果から、既知の SOTA 法である AntBO に比べて、抗体らしさや developability の維持の観点で ALLM-Ab が優れていることを示しています。

コードはこちら。

GitHub - ohuelab/ALLM-Ab: ALLM-Ab: Active Learning-Driven Antibody Optimization Using Fine-tuned Protein Language Models
ALLM-Ab: Active Learning-Driven Antibody Optimization Using Fine-tuned Protein Language Models - ohuelab/ALLM-Ab