【抗体デザイン】pLM の確率分布からから直接サンプリングする抗体最適化設計手法 ALLM-Ab とは

ALLM-Ab: Active Learning-Driven Antibody Optimization Using Fine-tuned Protein Language Models

アクティブラーニング × 言語モデル微調整による抗体最適化フレームワークである ALLM-Ab に関する研究です。

抗体の最適化手法に関わる論文の紹介です。

従来、大規模タンパク質言語モデル（pLMs）が配列の「言語性」から構造・機能を予測するために使われていますが、結合親和性向上など機能を直接最適化するために特化するアプローチではありませんでした。

一方で既存の最適化手法（ベイズ最適化やGA）には以下の課題がありました

これらの課題を解決するために筆者らは、以下のコア要素を含む最適化手法 ALLM-Ab を開発しました。

効率的なファインチューニング + Learning-to-Rank
- LoRA によるパラメータ効率の良いファインチューニング。
- ListMLE を用い、親和性スコアの絶対値ではなく「ランキング」を最適化。
確率分布からの直接サンプリング
- GAではなく、微調整済み pLM の確率分布から直接変異を生成。
- wild-type 配列に対するバイアスを導入して過剰な変異導入を防止。
- Approximate fitness score を導入し、推論を高速化。
多目的最適化（Hypervolume maximization）
- 親和性（Flex ddGやDMSスコア）に加え、以下の開発性指標を同時に最適化:
  - AbLang2 Perplexity（抗体らしさの保持）
  - 等電点（pI）
  - 疎水性（GRAVYスコア）
  - Instability index
- Hypervolumeに基づき、複数指標を同時に最適化。