拡散モデルで「どこを変えればよいか」が分かる:タンパク質の反実仮想最適化(MCCOP)

論文タイトル

Protein Counterfactuals via Diffusion-Guided Latent Optimization

出典

Protein Counterfactuals via Diffusion-Guided Latent Optimization
Deep learning models can predict protein properties with unprecedented accuracy but rarely offer mechanistic insight or actionable guidance for engineering impr...

要旨

本論文では、タンパク質の性質を改善するために「最小限の変異」を提案するフレームワーク(MCCOP)が提案されています。

解説など

本論文では、タンパク質の最適化手法を提案しています。筆者らは、

  • 反実仮想生成
  • 拡散モデルを利用した “manifold制約”

の2つの手法をタンパク質最適化設計に利用しています。

具体的には、MCCOP(Manifold-Constrained Counterfactual Optimization for Proteins)という手法を提案しています。これは、

  • 予測モデルの出力を目的の状態に変える
  • 変異数はできるだけ少なくする
  • 生物学的にあり得る(折りたためる)配列にする

という3つを同時に満たすようなタンパク質変異を求めるものです。

以下に具体的な設計手順を紹介します。

  1. 配列+構造の潜在表現を使う
     CHEAPというエンコーダを使い、配列と立体構造の情報をまとめたベクトルに変換します。
     この空間では、タンパク質の「意味的な近さ」を連続的に扱えます。
  2. 勾配最適化で性質を変える方向に動かす
     予測モデルに対して勾配(gradient)を計算し、「目的の性質になる方向」に少しずつ動かします。
  3. スパース制約(変異を少なくする)
     勾配の大きい位置だけを選び(top-k)、そこだけ変えるようにします。
     これにより「最小限の変異」を実現します。
  4. 拡散モデルで“あり得るタンパク質”に戻す
     そのまま最適化すると「不自然なタンパク質」になりがちです。
     そこで、拡散モデル(DiMA)を使って「タンパク質らしい分布」に引き戻します。

 → これが「manifold制約(現実的な領域に制限)」です。

このように、「勾配で目的へ進む」+「拡散で現実に戻す」という交互処理が特徴です。

方法としては、Lab-in-the-Loopのような実験データに基づいて分子進化させるアプローチではなく、既知の潜在表現に基づいて効率的に有望改変を探索する手法になります。そして、

  • 変異数をできるだけ少なくする → 反実仮想生成
  • 生物学的にあり得る配列にする → manifold制約

という工夫により、設計の安定性を高めています。

3つのタスクで評価されています:

  • 蛍光タンパク質(GFP)の明るさ改善
  • タンパク質安定性の向上
  • E3リガーゼ活性の回復

主な結果として本文には以下が記載されています:

  • 安定性・活性タスクでは成功率が100%
  • 変異数は平均約2〜3個程度
  • 従来法(遺伝的アルゴリズムなど)は6〜10個程度の変異が必要
  • adversarial(見かけだけ変わる不正解)はほぼゼロに近い

コードはこちら。

GitHub - weroks/mccop: MCCOP: Protein Counterfactuals via Diffusion-Guided Latent Optimization
MCCOP: Protein Counterfactuals via Diffusion-Guided Latent Optimization - weroks/mccop