AlphaFold2を活用したタンパク質の多様な構造状態の予測

論文タイトル

Prediction of multiple conformational states by combining sequence clustering with AlphaFold2

出典

https://www.biorxiv.org/content/10.1101/2022.10.17.512570v1

要旨

タンパク質の多状態構造を、MSA のクラスタリングと AlphaFold を利用して予測する AF-cluster という手法を開発しています。

解説など

これまで、タンパク質の多状態構造をインシリコで予測する手法には、例えば MSA のサブサンプリング法などがありました。このような手法に対して、筆者らは、MSA の配列情報をあらかじめクラスタリングすることで、サンプリングするより効果的に多状態構造を予測できることを示しています。

この研究では、タンパク質の異なる構造状態を同定するために、MSA(複数配列アライメント)をシーケンスの距離に基づいて DBSCAN というアルゴリズムでクラスタリングしました。この手法は「AF-cluster」と呼ばれるパイプラインの一部であり、ColabFold で MSA を生成し、DBSCAN で MSA シーケンスをクラスタリングし、それぞれのクラスタに対して AlphaFold2 で予測を実行する、という流れで構造予測が行われます。

筆者らは、この AF-cluster の効果を下記のタスクで検証しています。

1. 変形タンパク質 KaiB, RfaH, Mad2 の状態予測:

  • MSA(複数配列アライメント)のシーケンス類似性に基づくクラスタリングを使用。
  • AF2を用いて、これらのタンパク質の両方の状態を予測し、高い信頼度でスコアリング。
  • KaiBを例に、AF2の複数状態予測の性質と、その折り畳みスイッチの生化学的基盤をさらに調査​​​​。

2. 未知のタンパク質構造の発見:

  • AF-clusterを使用して、既知の折り畳みスイッチングがないタンパク質ファミリーで代替構造を検出。
  • タンパク質ファミリーの既存のMSAデータベースを使用し、新しい構造状態を特定。
  • 例として、オキシドレダクターゼDsbEが、チオレドキシン様フォールドと新しいフォールドの両方を占有すると予測​​。

3. MSAクラスターからのAF2予測の分布分析:

  • MSAを均一にサブサンプリングして得られた予測と比較し、MSAクラスターサンプルの方が信頼度が高いことを発見​​。