【タンパク質構造予測】AF2を超える計算速度、RoseTTAFold”2″の威力について

論文タイトル

Efficient and accurate prediction of protein structure using RoseTTAFold2

出典

500 Internal Server Error

確認したいこと

深層学習を用いたタンパク質デザイン手法をベンチマークしています。

要旨

タンパク質構造予測モデル RoseTTAFold の改良版、RoseTTAFold2 について紹介した論文です。

解説など

本論文では、タンパク質構造予測モデルの1つであるRoseTTAFold (RF) の後継バージョン、RoseTTAFold”2″ のコンセプトと構造予測成績を紹介しています。

現時点で、タンパク質構造を予測できる高精度モデルのゴールドスタンダードは AlphaFold2 (AF2) ですが、AF2とRFには、以下のような違いがありました。

  • RFの基本ブロックに3D構造トラックを含む
  • biaxial attention (RF) vs triangle attention (AF2)
  • SE3-equivariant transformer (RF) vs Invariant Point Attention (IPA) (AF2)
  • 8+4 2-track/3-track layers (RF) vs 4+48 full-msa/clustered-msa evoformer layers (AF2)

RF2ではこれらの両モデルの特徴を活かすことで、RFの改良を試みました。

RFからのRF2の改良点は以下のとおりとなります。

  • ネットワークの反復は前処理ステップとして実行され、weightの更新を最終ラウンドの情報からのみ計算した
  • タンパク質複合体情報を訓練データに追加した
  • AF2予測構造を用いてモデルを蒸留した

これらの改良の結果、単量体・複合体ともにAF2とほぼ同等の構造予測成績であることが示されました。またRF2の特徴として、サイズの大きいタンパク質に対する予測速度がAF2に比べ大きく改善されていることがわかりました。これはAF2における”triangle attention” は、大きなタンパク質に対して計算コストが高いため、RFの3Dトラックを利用することで、効率的な計算が可能になった結果であると述べられています。

スクリーニングなどの大規模システムに組み込む構造予測モデルとして、RF2は良い候補になると考えられます。

RF2のコードは以下のレポジトリで公開されています。

GitHub - uw-ipd/RoseTTAFold2
Contribute to uw-ipd/RoseTTAFold2 development by creating an account on GitHub.

コメント