論文タイトル
Guiding Generative Protein Language Models with Reinforcement Learning
出典
要旨
タンパク質言語モデル (pLMs) に強化学習 (RL) を組み合わせることで、従来の限界を突破し、狙った性質を持つタンパク質配列を効率的に設計する手法 DPO_pLM を提案・検証したものです。
解説など
本論文では、DPO を使ってタンパク質言語モデル (pLM) の出力を制御する手法を紹介しています。
本ブログではこれまでに以下のような DPO 手法を紹介してきました。
これまでの手法は、ESM-IFやProtGPT2など「構造モデル」や「テキスト寄りの生成モデル」をベースとした実施例が多かったのですが、本論文で紹介する DPO_pLM は、汎用的な自己回帰 pLM に適用しているのが特徴です。またこれまでコード公開が限定的だったのですが、DPO_pLM は MITライセンスで公開しています。
手法についてですが、先述のとおりベースとなるアルゴリズムは Direct Preference Optimization (DPO)です。
- 本来は「人間が A > B と判断した」順位付けデータで学習するが、本研究では「オラクルによるスコア」を順位や重みとして利用。
- モデルが生成した配列に対してオラクルがフィットネス値を返し、それを報酬として学習を繰り返す。
- 追加データ不要、負例データからも学習可能、多目的最適化が可能。
本論文の実施例では、ZymCTRL という 各配列に EC 番号が付与された条件付きタンパク質言語モデルを活用しています。以前の研究では、このモデルを使って、酵素配列生成された事例があります。
実施例としては、
- 構造トポロジー制御
- 希少酵素クラスの生成
- 実験検証 – EGFRバインダー設計
などの複数のタスクを本手法で解いています。
EGFRのバインダー設計では、EGF のホモログ配列を BLAST で収集(約600配列)し、それらに存在しないEC番号を付与して、そのラベルで条件付け生成を行うことで EGF-like なバインダーの生成を試みています。
DPOのオラクルには、以下の3つの報酬項目を用意しています。
- PEA (Predicted Epitope Accessibility)
- ESM2 log-likelihood
- pLDDT (構造予測の信頼度, AlphaFold由来)
DPOと配列生成の流れは、次のとおりです。
20配列を生成 → AlphaFold2(Colab版)で構造予測 → 上記指標でスコア付け → 報酬としてDPO学習
これを、12イテレーション繰り返ししています。設計した配列はAdaptyvbio のデザインコンペを利用し、
3件がナノモル (nM) レベルの親和性であることを実験的に確認しています。
コードはこちら。



