LLMがタンパク質設計を“考えながら改善する”:RosettaSearchの仕組みをやさしく解説

論文タイトル

RosettaSearch: Multi-Objective Inference-Time Search for Protein Sequence Design

出典

RosettaSearch: Multi-Objective Inference-Time Search for Protein Sequence Design
We introduce RosettaSearch, an inference-time multi-objective optimization approach for protein sequence optimization. We use large language models (LLMs) as a ...

要旨

LLMを最適化器として使い、構造予測モデルからのフィードバックをもとにタンパク質配列を段階的に改善する「RosettaSearch」という手法が提案されています。推論時の探索だけで構造一致性を大きく向上させる点が特徴です。

解説など

本研究は、「タンパク質の立体構造が与えられたとき、それにうまく折りたたまれるアミノ酸配列を見つける」という問題に取り組んでいます。

従来の手法(ProteinMPNNやLigandMPNNなど)は、「1回の推論(one-shot)で配列を生成する」方式が主流でした。しかしこの方法には課題があります:

  • 一度低品質な配列を出すと修正できない
  • 構造的に不適切な配列が一定割合で出てしまう

そこで本研究では、「LLMを使って配列を“何度も改善する”探索アルゴリズム」である RosettaSearch を提案しています。

メソッドのポイントは3つあります。

① LLMを“生成モデル”ではなく“最適化器”として使う

通常は配列を一度で生成しますが、この研究では違います。

  • 初期配列(例:LigandMPNNの出力)を用意
  • 構造予測モデル(RosettaFold3)で評価
  • その結果をLLMにフィードバック
    • 一般的なLLMをそのまま使用:o4-mini, o3-mini, Gemini-3
  • LLMが「どこをどう変えるか」を考えて修正

というループを回します。つまり、LLMが“改善案を出すエンジニア”のように振る舞うのが特徴です。

② 構造ベースのフィードバック(ここが重要)

LLMには以下のような情報が与えられます:

  • グローバル評価
    • pLDDT(構造の信頼度)
    • TM-score(全体構造の一致度)
    • Cα-RMSD(構造ズレ)
  • ローカル情報
    • 「この領域は構造が不安定」などの残基レベル指摘

これにより、LLMは「どこを直すべきか」を理解できます。

③ 探索アルゴリズム(Priority Search)

単純に1本の改善ルートを辿るのではなく、

  • 複数の候補配列を並列に生成
  • 良いものを選びつつ探索を継続

することで、局所最適にハマるのを防ぎます。

論文では約400個の異なるタンパク質を対象にRosettaSearchを適用して評価しています。

主な結果:

  • 構造指標が大幅に改善
    • pLDDT、TM-score向上
    • RMSD低下
  • 成功率が約 2.5倍に向上

また、ランダム変異では改善しなかったことから、LLMが意味のある変異を提案していることが示されています。

さらに興味深い点として、

  • タンパク質構造の「画像」をLLMに入力
  • Vision-Language Modelで改善

という拡張も試されています。結果として、

  • 性能はテキストのみと同程度
  • ただし推論の質(説明の豊かさ)は向上

と報告されています。