論文タイトル
Guiding Generative Models for Protein Design: Prompting, Steering and Aligning
出典
Guiding Generative Models for Protein Design: Prompting, Steering and Aligning
Generative artificial intelligence (AI) models learn probability distributions from data and produce novel samples that capture the salient properties of their ...
要旨
本論文は、生成AI(GMPDs: Generative Models for Protein Design)を「望む性質をもつタンパク質を作る方向にコントロールする方法」を体系的に整理したレビューです。
解説など
近年の大規模 pLM(Protein LMs)・Diffusion 系の登場により「生成」はできるようになりましたが、その生成挙動を所望の性質 y(安定性、活性、特異性など)へどのように誘導するか、という問題に対して、
- 学習中にモデルを変える方法(Train-time methods)
- 生成時にモデルを変えずに操作する方法(Inference-time control)
の2つの方法論に大別し、包括的に整理した点が本論文の最大の貢献です。
Train-time Methods
1. Supervised Fine-Tuning (SFT)
特定の性質を持つデータだけで追加学習する方法です。
限界
- データ中の「相対的な良し悪し(gradation)」を学べず、性能は改善するが「ユーザー意図との細かな整合」はできない(=NLPでも同じ問題)
- catastrophic forgetting のリスク
→ RL と組み合わせる流れが主流に。
2. Reinforcement Learning (RL) による整合(alignment)
pLM を policy πθ と見なし、外部のスコア(実験値、予測値、human preference)を報酬として更新します。
大きく以下の2系統があります。
A. PPO 系(Reward-model based alignment)
- PPO: 安定した更新のためのクリップ付き policy gradient
B. Preference-based RL(DPO / GRPO 系)
- 近年のトレンド。ペアの比較(どちらが良いか)だけから学習し、reward model が不要。
- DPO:好ましいペア (x_w, x_l) の log-prob 差を拡大
- GRPO:サンプル群内の相対評価で安定化(value model 不要)
Inference-time control
モデルの重みは固定のまま、入力・隠れ状態・サンプリング・外部情報などで誘導する方法です。
| 手法カテゴリ | 代表例 | 何を操作するか | 利点 | 欠点 | 適した用途 |
| 1. Prompt & Context Programming | タグ条件付け、モチーフ固定、部分マスク | 入力 | 最も簡単・高速/モデル変更不要 | できることはモデルが既に学習済みの表現に限られる | pLM に既知の性質を呼び出す、モチーフ保持 |
| 2. Retrieval-Augmented Generation (RAG) | Protriever、POET | 外部知識(retrieval) | モデルの知識を強化/自然分布にない情報を付与 | retrieval の質に依存/hallucination残る | 系統情報・機能情報を付加して誘導 |
| 3. Output-dependent Guidance(勾配誘導) | PPLM、ColabDesign、BindCraft | 出力確率 or 予測構造への勾配 | 外部スコアで直接誘導できる/柔軟 | 計算コスト大/不安定/exploration が狭い | ΔΔG・AFM・Rosetta など明確なスコアがある場合 |
| 4. Activation Steering | Sparse Autoencoders (SAE) | 隠れ状態(latent) | 内部表現を意味方向へ操作可能/軽量 | SAE の品質依存/解釈可能性が必要 | pLM 内の「疎水性」「安定性」方向の微調整 |
| 5. Bayesian Guidance | likelihood reweighting | 確率分布の後処理 | p(x) と外部スコアを Bayes 則で統合できる | 計算が重く、サンプル効率低い | 生成後のスコア補正 |
| 6. Sampling Controls | 温度、top-k、top-p、MCTS | サンプリング挙動 | 多様性と質のバランス調整/高速 | 性質への誘導力は弱い | ランダム性・探索性の調整 |
基本的に、基盤モデルは自然分布を学習しているケースが多いため、自然分布に依存しない指標(FoldXなどの物理的スコアや実験値)を活用してモデルをガイドすることが重要です。

