【タンパク質構造予測】単一配列からのタンパク質構造予測におけるColabFoldの革新

論文タイトル

ColabFold predicts alternative protein structures from single sequences, coevolution unnecessary for AF-cluster

出典

https://www.biorxiv.org/content/10.1101/2023.11.21.567977v2

要旨

本論文では、ColabFold に標的のタンパク質配列を投げるだけで、タンパク質の代替構造を予測できる可能性があることを示しています。

解説など

先日、タンパク質のフレキシビリティに基づく代替構造を予測する手法として、AF-clusterを紹介しました。

これは、共進化情報を利用してあらかじめ構造を分類し、各クラスタ情報をもとに構造を予測することで、最安定構造への収束を防ぎ多様な構造を生成する方法です。

筆者らは、このAF-clusterでも代替構造を予測できない事例があることに言及し(下記コラム参照)、ColabFoldに標的のタンパク質配列を投げるだけで、代替構造を予測できる可能性があることを示しています。

コラム AF-clusterの限界

特定のタンパク質変異体の構造を正確に予測できなかった具体的な例は、カイB(KaiB)というタンパク質の変異体です。この変異体は、T. elongatusから得られたカイBの配列と92%の類似性を示し、わずか8つの突然変異が存在します。この変異体は、実験的には折り畳み、変化した構造を示すと確認されていますが、AF-clusterはこの変異体が基底状態(通常の状態)をとると誤って予測しました。この予測のために、ランダムシードを使用してさまざまなモデルを生成して多くの試行を行いましたが、正しい折り畳み変化状態を予測できませんでした​​。

この結果は、AF-clusterが特定のタンパク質変異体の構造を正確に予測できないことを示しており、共進化情報に基づく予測の限界を示唆しています。

筆者らは、上記のコラムで問題視していた、KaiBとそのホモログタンパク質を利用して、ColabFoldで代替構造を予測できることを示しています。

コラム ColabFold予測条件詳細

筆者らは ColabFold 予測において、以下のようなハイパーパラメータを使用しました。

  • 単一シーケンスの予測: 各AF-cluster予測に対して、ひとつのシーケンスが ColabFold に入力。デフォルト設定(5予測/シーケンス)で単一シーケンスモードで実行されます。T. elongatus vestus の予測タスクでは、16のランダムシード、1シードあたり5モデル、各モデルに対して3回のリサイクルを行いました​​。
  • KaiBのフォールドスイッチシーケンスの予測: ColabFoldを16のランダムシード、1シードあたり5モデル、各モデルに3リサイクルで実行し、PDB 5JYT とその5つの最も類似したAF-cluster MSAを入力として使用しています​​。
  • Mad2の予測: 初期予測に2つのランダムシード、1シードあたり5モデル、各モデルに3リサイクルを使用しました。収束テストでは、16のランダムシードを使い、各シードから5モデルを生成し、それぞれの2つのMSA(1SH2-047.a3mとF4NY50)に対して1、3、6、8、12回のリサイクルステップを行いました​​。

彼らは、実験的に特徴付けられた折り畳みタンパク質の単一配列を ColabFold に入力し、その予測結果を AF-cluster の予測と比較しました。この比較により、AF-cluster の予測と非常に類似していることが明らかになりました。また、予測に成功したいくつかの配列で、共進化の証拠が見つからなかったことを報告しています。

このような結果が得られた原因としては、ColabFold がデータセット内の類似配列に基づいて代替構造を「記憶」し、予測している可能性があると指摘しています。これは、共進化情報ではなく、類似性や保存パターンに予測が依存していることを示唆している結果です。

今後における AF-cluster の使用の指針としては、MSA の質を考慮するのが良いと思います。AF-clusterは、共進化情報を活用してタンパク質構造を予測するのに適していますが、これには複数の配列アラインメントが必要です。一方、ColabFoldは単一の配列からでも構造を予測できるため、利用可能なデータが限られている場合に有効になると考えます。