論文タイトル
Reinforcement Learning for Antibody Sequence Infilling
出典

Reinforcement Learning for Antibody Sequence Infilling
We introduce a flexible framework for antibody sequence design that combines an infilling language model with reinforcement learning to optimize functional prop...
要旨
可変長CDRインフィリングが可能な抗体LLM(IgLM)に、オンラインRL(PPO+KL)とオフラインRL(DRO)を統合し、「構造指標」と「実験データ」の両方で機能最適化できる枠組みを示した論文です。
解説など
本論文では、抗体最適化手法の開発結果を公開しています。
筆者らは、大きく「オンラインRL」と「オフラインRL」という2つのアプローチで最適化問題に取り組んでいます。オンラインRLとは、in silico スコアを活用して即座に報酬を計算し、モデル更新と評価を逐次的に行う手法です。一方オフラインRLとは、事前に取得した過去データだけで学習して最適な配列を一度に提案する手法を指します。
この論文では、オンラインRLのための最適化指標として、
- β-sheet 含有率
- SASA
- predicted RMSD(IgFold)
など、構造にもとづく計算可能な指標を、
オフラインRLのための最適化指標として、
- binding
- expression
- immunogenicity
などの、短期間には取得できない実験データを取り扱っています。
採用した最適化アルゴリズムは次のとおりです。
- オンラインRL:Proximal Policy Optimization
- 通常の強化学習と同じく報酬を活用
- KL制約・クリッピングにより、探索範囲を制限することで学習が安定化
- オフラインRL:Direct Reward Optimization
- 最適 policy の数式構造を使った回帰問題
- 反復探索不要
配列生成のための基盤モデルには、IgLMという抗体LLMを利用しています。これはデコーダー型のTransformerで、通常の自己回帰モデルとは異なり双方向コンテキストを使った “infilling” が可能です。
本手法はオンラインRLとオフラインRLを組み合わせた多様なニーズを満たす統合最適化パイプラインとして重要な位置づけとなるでしょう。

