配列と構造を同時に最適化するとはどういうことか？―安定なde novoタンパク質設計に向けた「joint optimization」の考え方

論文タイトル

Stable de novo protein design via joint conformational landscape and sequence optimization

出典

Stable de novo protein design via joint conformational landscape and sequence optimization - Nature Communications

This study presents a comprehensive modelling framework that jointly optimizes sequence and structure to generate de novo proteins with improved folding stabili...

要旨

タンパク質配列と構造を同時に最適化する「joint optimization」という考え方が、de novoタンパク質設計における安定性向上に有効であることを、網羅的な実験データを用いて検証しています。

解説など

de novoタンパク質設計では、「設計した配列が、狙った構造に本当に安定に折りたたまれるか」が大きな課題になります。

従来よく使われてきたのは、

構造→配列モデル（P(sequence｜structure), いわゆる逆フォールディング）
ですが、この方法では「別の構造に同じくらい安定に折りたたまれてしまう」可能性を十分に排除できません。

一方で、

配列→構造モデル（P(structure｜sequence)）
は、ある配列が取りうる構造全体（＝コンフォメーションランドスケープ）を見渡せますが、「配列そのものの良さ」を積極的に最適化する設計には向いていないという問題があります。

本研究では、この2つを同時に最適化することで、

目的構造が最も安定
かつ他の構造に逃げにくい
配列を設計できるのではないか、という仮説を検証しています。

論文では、以下の4通りの設計方法を比較しています。

TrROS：配列→構造モデル（P(structure｜sequence)）
TrMRF：構造→配列モデル（P(sequence｜structure)）
ProteinMPNN：構造→配列モデル
Joint model：TrROS と TrMRF を組み合わせ、配列と構造を同時に最適化

ProteinMPNNは配列サンプリングが可能なモデルですが、TrMRFは入力配列の疑似尤度を求めることができ勾配を配列に流すことができるので、本手法で提案された同時最適化が可能となります。

joint modelのアプローチの具体的な手順は次のとおりです。

ステップ１：TrROSによる初期構造生成（hallucination）
- TrROSで80残基以下のランダム配列を生成→hallucinationで構造最適化
ステップ２：joint modelによる配列・構造の同時最適化
- 損失の算出
  - TrROS / TrMRF それぞれに配列・構造を入力し得られた特徴量から TrROS loss と TrMRF lossを算出する
- 配列更新
  - Gumbel noise, straight-through estimator, argmax による one-hot 化を通じて離散配列最適化を実施
  - TrMRF単独法と同様
- 収束判定
  - TrROS loss + TrMRF loss がこれ以上下がらなくなるまで反復

本手法を以下の方法で評価しています。

80残基未満のミニタンパク質を設計
システインは使用せず（ジスルフィド結合を避けるため）
cDNA display プロテオリシス法により折りたたみ安定性（ΔG_unfold）を大規模測定

最終的に 13,442配列について安定性データを取得しています。

同一構造から設計された配列同士を比較すると、joint model由来配列は

TrROSより 80.5%
TrMRFより 74.4%
ProteinMPNNより 84.7%
のケースで、より高い安定性を示しました。

これは、「構造を固定して配列だけ最適化する」よりも、「構造自体も調整しながら配列を最適化する」方が、より低エネルギーな状態に到達できることを示唆しています。

論文では「設計」だけでなく、「どのスコアが安定性と相関するか」も検証しています。単一モデル（AF2 pLDDT、ESMFold pLDDT、ProteinMPNN CEなど）よりも、配列モデル＋構造モデルを組み合わせたハイブリッドスコアの方が、実験的ΔG_unfoldとの相関が高いことが示されました。

バインダーのような機能デザインへの応用と実装が望まれます。

コードはこちら。