LLMがタンパク質設計を“考えながら改善する”：RosettaSearchの仕組みをやさしく解説

RosettaSearch: Multi-Objective Inference-Time Search for Protein Sequence Design

LLMを最適化器として使い、構造予測モデルからのフィードバックをもとにタンパク質配列を段階的に改善する「RosettaSearch」という手法が提案されています。推論時の探索だけで構造一致性を大きく向上させる点が特徴です。

本研究は、「タンパク質の立体構造が与えられたとき、それにうまく折りたたまれるアミノ酸配列を見つける」という問題に取り組んでいます。

従来の手法（ProteinMPNNやLigandMPNNなど）は、「1回の推論（one-shot）で配列を生成する」方式が主流でした。しかしこの方法には課題があります：

そこで本研究では、「LLMを使って配列を“何度も改善する”探索アルゴリズム」である RosettaSearch を提案しています。

メソッドのポイントは3つあります。

通常は配列を一度で生成しますが、この研究では違います。

というループを回します。つまり、LLMが“改善案を出すエンジニア”のように振る舞うのが特徴です。

LLMには以下のような情報が与えられます：

これにより、LLMは「どこを直すべきか」を理解できます。

単純に1本の改善ルートを辿るのではなく、

することで、局所最適にハマるのを防ぎます。

論文では約400個の異なるタンパク質を対象にRosettaSearchを適用して評価しています。

主な結果：

また、ランダム変異では改善しなかったことから、LLMが意味のある変異を提案していることが示されています。

さらに興味深い点として、

という拡張も試されています。結果として、

と報告されています。