論文タイトル
RosettaSearch: Multi-Objective Inference-Time Search for Protein Sequence Design
出典
RosettaSearch: Multi-Objective Inference-Time Search for Protein Sequence Design
We introduce RosettaSearch, an inference-time multi-objective optimization approach for protein sequence optimization. We use large language models (LLMs) as a ...
要旨
LLMを最適化器として使い、構造予測モデルからのフィードバックをもとにタンパク質配列を段階的に改善する「RosettaSearch」という手法が提案されています。推論時の探索だけで構造一致性を大きく向上させる点が特徴です。
解説など
本研究は、「タンパク質の立体構造が与えられたとき、それにうまく折りたたまれるアミノ酸配列を見つける」という問題に取り組んでいます。
従来の手法(ProteinMPNNやLigandMPNNなど)は、「1回の推論(one-shot)で配列を生成する」方式が主流でした。しかしこの方法には課題があります:
- 一度低品質な配列を出すと修正できない
- 構造的に不適切な配列が一定割合で出てしまう
そこで本研究では、「LLMを使って配列を“何度も改善する”探索アルゴリズム」である RosettaSearch を提案しています。
メソッドのポイントは3つあります。
① LLMを“生成モデル”ではなく“最適化器”として使う
通常は配列を一度で生成しますが、この研究では違います。
- 初期配列(例:LigandMPNNの出力)を用意
- 構造予測モデル(RosettaFold3)で評価
- その結果をLLMにフィードバック
- 一般的なLLMをそのまま使用:o4-mini, o3-mini, Gemini-3
- LLMが「どこをどう変えるか」を考えて修正
というループを回します。つまり、LLMが“改善案を出すエンジニア”のように振る舞うのが特徴です。
② 構造ベースのフィードバック(ここが重要)
LLMには以下のような情報が与えられます:
- グローバル評価
- pLDDT(構造の信頼度)
- TM-score(全体構造の一致度)
- Cα-RMSD(構造ズレ)
- ローカル情報
- 「この領域は構造が不安定」などの残基レベル指摘
これにより、LLMは「どこを直すべきか」を理解できます。
③ 探索アルゴリズム(Priority Search)
単純に1本の改善ルートを辿るのではなく、
- 複数の候補配列を並列に生成
- 良いものを選びつつ探索を継続
することで、局所最適にハマるのを防ぎます。
論文では約400個の異なるタンパク質を対象にRosettaSearchを適用して評価しています。
主な結果:
- 構造指標が大幅に改善
- pLDDT、TM-score向上
- RMSD低下
- 成功率が約 2.5倍に向上
また、ランダム変異では改善しなかったことから、LLMが意味のある変異を提案していることが示されています。
さらに興味深い点として、
- タンパク質構造の「画像」をLLMに入力
- Vision-Language Modelで改善
という拡張も試されています。結果として、
- 性能はテキストのみと同程度
- ただし推論の質(説明の豊かさ)は向上
と報告されています。

