拡散モデルで「どこを変えればよいか」が分かる：タンパク質の反実仮想最適化（MCCOP）

Protein Counterfactuals via Diffusion-Guided Latent Optimization

本論文では、タンパク質の性質を改善するために「最小限の変異」を提案するフレームワーク（MCCOP）が提案されています。

本論文では、タンパク質の最適化手法を提案しています。筆者らは、

の２つの手法をタンパク質最適化設計に利用しています。

具体的には、MCCOP（Manifold-Constrained Counterfactual Optimization for Proteins）という手法を提案しています。これは、

という3つを同時に満たすようなタンパク質変異を求めるものです。

以下に具体的な設計手順を紹介します。

配列＋構造の潜在表現を使う
　CHEAPというエンコーダを使い、配列と立体構造の情報をまとめたベクトルに変換します。
　この空間では、タンパク質の「意味的な近さ」を連続的に扱えます。
勾配最適化で性質を変える方向に動かす
　予測モデルに対して勾配（gradient）を計算し、「目的の性質になる方向」に少しずつ動かします。
スパース制約（変異を少なくする）
　勾配の大きい位置だけを選び（top-k）、そこだけ変えるようにします。
　これにより「最小限の変異」を実現します。
拡散モデルで“あり得るタンパク質”に戻す
　そのまま最適化すると「不自然なタンパク質」になりがちです。
　そこで、拡散モデル（DiMA）を使って「タンパク質らしい分布」に引き戻します。

　→ これが「manifold制約（現実的な領域に制限）」です。

このように、「勾配で目的へ進む」＋「拡散で現実に戻す」という交互処理が特徴です。

方法としては、Lab-in-the-Loopのような実験データに基づいて分子進化させるアプローチではなく、既知の潜在表現に基づいて効率的に有望改変を探索する手法になります。そして、