【タンパク質デザイン】PLM や Diffusion モデルを「ガイド」する方法を総まとめ

Guiding Generative Models for Protein Design: Prompting, Steering and Aligning

本論文は、生成AI（GMPDs: Generative Models for Protein Design）を「望む性質をもつタンパク質を作る方向にコントロールする方法」を体系的に整理したレビューです。

近年の大規模 pLM（Protein LMs）・Diffusion 系の登場により「生成」はできるようになりましたが、その生成挙動を所望の性質 y（安定性、活性、特異性など）へどのように誘導するか、という問題に対して、

の2つの方法論に大別し、包括的に整理した点が本論文の最大の貢献です。

特定の性質を持つデータだけで追加学習する方法です。

→ RL と組み合わせる流れが主流に。

pLM を policy πθ と見なし、外部のスコア（実験値、予測値、human preference）を報酬として更新します。

大きく以下の2系統があります。

A. PPO 系（Reward-model based alignment）

B. Preference-based RL（DPO / GRPO 系）

モデルの重みは固定のまま、入力・隠れ状態・サンプリング・外部情報などで誘導する方法です。

手法カテゴリ	代表例	何を操作するか	利点	欠点	適した用途
1. Prompt & Context Programming	タグ条件付け、モチーフ固定、部分マスク	入力	最も簡単・高速／モデル変更不要	できることはモデルが既に学習済みの表現に限られる	pLM に既知の性質を呼び出す、モチーフ保持
2. Retrieval-Augmented Generation (RAG)	Protriever、POET	外部知識（retrieval）	モデルの知識を強化／自然分布にない情報を付与	retrieval の質に依存／hallucination残る	系統情報・機能情報を付加して誘導
3. Output-dependent Guidance（勾配誘導）	PPLM、ColabDesign、BindCraft	出力確率 or 予測構造への勾配	外部スコアで直接誘導できる／柔軟	計算コスト大／不安定／exploration が狭い	ΔΔG・AFM・Rosetta など明確なスコアがある場合
4. Activation Steering	Sparse Autoencoders (SAE)	隠れ状態（latent）	内部表現を意味方向へ操作可能／軽量	SAE の品質依存／解釈可能性が必要	pLM 内の「疎水性」「安定性」方向の微調整
5. Bayesian Guidance	likelihood reweighting	確率分布の後処理	p(x) と外部スコアを Bayes 則で統合できる	計算が重く、サンプル効率低い	生成後のスコア補正
6. Sampling Controls	温度、top-k、top-p、MCTS	サンプリング挙動	多様性と質のバランス調整／高速	性質への誘導力は弱い	ランダム性・探索性の調整