【タンパク質デザイン】PLM や Diffusion モデルを「ガイド」する方法を総まとめ

論文タイトル

Guiding Generative Models for Protein Design: Prompting, Steering and Aligning

出典

Guiding Generative Models for Protein Design: Prompting, Steering and Aligning
Generative artificial intelligence (AI) models learn probability distributions from data and produce novel samples that capture the salient properties of their ...

要旨

本論文は、生成AI(GMPDs: Generative Models for Protein Design)を「望む性質をもつタンパク質を作る方向にコントロールする方法」を体系的に整理したレビューです。

解説など

近年の大規模 pLM(Protein LMs)・Diffusion 系の登場により「生成」はできるようになりましたが、その生成挙動を所望の性質 y(安定性、活性、特異性など)へどのように誘導するか、という問題に対して、

  • 学習中にモデルを変える方法(Train-time methods)
  • 生成時にモデルを変えずに操作する方法(Inference-time control)

の2つの方法論に大別し、包括的に整理した点が本論文の最大の貢献です。

Train-time Methods

1. Supervised Fine-Tuning (SFT)

特定の性質を持つデータだけで追加学習する方法です。

限界
  • データ中の「相対的な良し悪し(gradation)」を学べず、性能は改善するが「ユーザー意図との細かな整合」はできない(=NLPでも同じ問題)
  • catastrophic forgetting のリスク

→ RL と組み合わせる流れが主流に。

2. Reinforcement Learning (RL) による整合(alignment)

pLM を policy πθ と見なし、外部のスコア(実験値、予測値、human preference)を報酬として更新します。

大きく以下の2系統があります。

A. PPO 系(Reward-model based alignment)

  • PPO: 安定した更新のためのクリップ付き policy gradient

B. Preference-based RL(DPO / GRPO 系)

  • 近年のトレンド。ペアの比較(どちらが良いか)だけから学習し、reward model が不要。
  • DPO:好ましいペア (x_w, x_l) の log-prob 差を拡大
  • GRPO:サンプル群内の相対評価で安定化(value model 不要)

Inference-time control

モデルの重みは固定のまま、入力・隠れ状態・サンプリング・外部情報などで誘導する方法です。

手法カテゴリ代表例何を操作するか利点欠点適した用途
1. Prompt & Context Programmingタグ条件付け、モチーフ固定、部分マスク入力最も簡単・高速/モデル変更不要できることはモデルが既に学習済みの表現に限られるpLM に既知の性質を呼び出す、モチーフ保持
2. Retrieval-Augmented Generation (RAG)Protriever、POET外部知識(retrieval)モデルの知識を強化/自然分布にない情報を付与retrieval の質に依存/hallucination残る系統情報・機能情報を付加して誘導
3. Output-dependent Guidance(勾配誘導)PPLM、ColabDesign、BindCraft出力確率 or 予測構造への勾配外部スコアで直接誘導できる/柔軟計算コスト大/不安定/exploration が狭いΔΔG・AFM・Rosetta など明確なスコアがある場合
4. Activation SteeringSparse Autoencoders (SAE)隠れ状態(latent)内部表現を意味方向へ操作可能/軽量SAE の品質依存/解釈可能性が必要pLM 内の「疎水性」「安定性」方向の微調整
5. Bayesian Guidancelikelihood reweighting確率分布の後処理p(x) と外部スコアを Bayes 則で統合できる計算が重く、サンプル効率低い生成後のスコア補正
6. Sampling Controls温度、top-k、top-p、MCTSサンプリング挙動多様性と質のバランス調整/高速性質への誘導力は弱いランダム性・探索性の調整

基本的に、基盤モデルは自然分布を学習しているケースが多いため、自然分布に依存しない指標(FoldXなどの物理的スコアや実験値)を活用してモデルをガイドすることが重要です。