論文タイトル
Efficient and accurate prediction of protein structure using RoseTTAFold2
出典
https://www.biorxiv.org/content/10.1101/2023.05.24.542179v1
確認したいこと
深層学習を用いたタンパク質デザイン手法をベンチマークしています。
要旨
タンパク質構造予測モデル RoseTTAFold の改良版、RoseTTAFold2 について紹介した論文です。
解説など
本論文では、タンパク質構造予測モデルの1つであるRoseTTAFold (RF) の後継バージョン、RoseTTAFold”2″ のコンセプトと構造予測成績を紹介しています。
現時点で、タンパク質構造を予測できる高精度モデルのゴールドスタンダードは AlphaFold2 (AF2) ですが、AF2とRFには、以下のような違いがありました。
- RFの基本ブロックに3D構造トラックを含む
- biaxial attention (RF) vs triangle attention (AF2)
- SE3-equivariant transformer (RF) vs Invariant Point Attention (IPA) (AF2)
- 8+4 2-track/3-track layers (RF) vs 4+48 full-msa/clustered-msa evoformer layers (AF2)
RF2ではこれらの両モデルの特徴を活かすことで、RFの改良を試みました。
RFからのRF2の改良点は以下のとおりとなります。
- ネットワークの反復は前処理ステップとして実行され、weightの更新を最終ラウンドの情報からのみ計算した
- タンパク質複合体情報を訓練データに追加した
- AF2予測構造を用いてモデルを蒸留した
これらの改良の結果、単量体・複合体ともにAF2とほぼ同等の構造予測成績であることが示されました。またRF2の特徴として、サイズの大きいタンパク質に対する予測速度がAF2に比べ大きく改善されていることがわかりました。これはAF2における”triangle attention” は、大きなタンパク質に対して計算コストが高いため、RFの3Dトラックを利用することで、効率的な計算が可能になった結果であると述べられています。
スクリーニングなどの大規模システムに組み込む構造予測モデルとして、RF2は良い候補になると考えられます。
RF2のコードは以下のレポジトリで公開されています。
GitHub - uw-ipd/RoseTTAFold2
Contribute to uw-ipd/RoseTTAFold2 development by creating an account on GitHub.
コメント