【タンパク質構造予測】AF2を超える計算速度、RoseTTAFold”2″の威力について

論文タイトル

Efficient and accurate prediction of protein structure using RoseTTAFold2

出典

https://www.biorxiv.org/content/10.1101/2023.05.24.542179v1

確認したいこと

深層学習を用いたタンパク質デザイン手法をベンチマークしています。

要旨

タンパク質構造予測モデル RoseTTAFold の改良版、RoseTTAFold2 について紹介した論文です。

解説など

本論文では、タンパク質構造予測モデルの1つであるRoseTTAFold (RF) の後継バージョン、RoseTTAFold”2″ のコンセプトと構造予測成績を紹介しています。

現時点で、タンパク質構造を予測できる高精度モデルのゴールドスタンダードは AlphaFold2 (AF2) ですが、AF2とRFには、以下のような違いがありました。

  • RFの基本ブロックに3D構造トラックを含む
  • biaxial attention (RF) vs triangle attention (AF2)
  • SE3-equivariant transformer (RF) vs Invariant Point Attention (IPA) (AF2)
  • 8+4 2-track/3-track layers (RF) vs 4+48 full-msa/clustered-msa evoformer layers (AF2)

RF2ではこれらの両モデルの特徴を活かすことで、RFの改良を試みました。

RFからのRF2の改良点は以下のとおりとなります。

  • ネットワークの反復は前処理ステップとして実行され、weightの更新を最終ラウンドの情報からのみ計算した
  • タンパク質複合体情報を訓練データに追加した
  • AF2予測構造を用いてモデルを蒸留した

これらの改良の結果、単量体・複合体ともにAF2とほぼ同等の構造予測成績であることが示されました。またRF2の特徴として、サイズの大きいタンパク質に対する予測速度がAF2に比べ大きく改善されていることがわかりました。これはAF2における”triangle attention” は、大きなタンパク質に対して計算コストが高いため、RFの3Dトラックを利用することで、効率的な計算が可能になった結果であると述べられています。

スクリーニングなどの大規模システムに組み込む構造予測モデルとして、RF2は良い候補になると考えられます。

RF2のコードは以下のレポジトリで公開されています。

GitHub - uw-ipd/RoseTTAFold2
Contribute to uw-ipd/RoseTTAFold2 development by creating an account on GitHub.

コメント