【タンパク質構造予測】多状態構造を効率的にサンプルリングすることができる新モデル Cfold とは

論文タイトル

Structure prediction of alternative protein conformations

出典

Structure prediction of alternative protein conformations - Nature Communications
Proteins have diverse functions due to their dynamic conformations. Here, authors introduce Cfold, a neural network that accurately predicts alternative protein...

要旨

タンパク質の代替構造を予測する深層学習モデル Cfold の性能を紹介した論文です。

解説など

筆者らの開発した構造予測モデル Cfold はタンパク質の代替構造 (alternative conformations) を予測するために開発されました。タンパク質の多状態を予測する手法には、MSA クラスタリング手法を最適化する方法が主流です。具体例を挙げると以下のような方法があります。

  • 配列クラスタの数を手動で最適化する
  • 多様なクラスタを生成するために DBscan を使用する
  • AlphaFold Evoformer embedding で条件付けした拡散モデルを使用する

これに対して筆者らは、PDB に登録されたタンパク質に対して構造に基づくクラスタリングを行い、構造予測モデルの推論時に複数のクラスタに由来する MSA から構造モデルをサンプリングすることで代替構造の生成を試みました。

筆者らが構築したモデルは Cfold と呼ばれるものですが、これは AF2 のアーキテクチャを参照して訓練されたモデルです。実際に適切に代替構造を予測できているか検証するため、複数の状態をもつことがわかっているタンパク質は訓練データからは除き、検証データセットとして使用しています。

先行論文では代替構造予測性能評価に10未満のサンプルしか利用していなかったのですが、本論文では計155の既知の代替構造データセットで評価することができています。

Cfold による代替構造の予測成績を評価したところ、81/155 の割合で正しい代替構造を生成できたと報告されています。本手法では構造間で TM-score の差が 0.2-0.4 程度であれば、conformational change を予測できる可能性あるとのことです。それ以上なら、進化情報に依存しない予測手法の開発が必要だと述べられています。また興味深いことに、モデルの中間層からエンベディングを取り出しても、代替構造間でその差が実際の構造差異と相関しなかったとのことで、モデルが異なる構造を生成できるか否かは、ある程度確率的に決まっていると推測されます。

Cfold のコードはこちらに公開されています。

GitHub - patrickbryant1/Cfold: Structure prediction of alternative protein conformations
Structure prediction of alternative protein conformations - patrickbryant1/Cfold