【Rosetta】深層学習構造予測モデルtrRosettaの実態

論文タイトル

Improved protein structure prediction using predicted interresidue orientations

出典

Proc Natl Acad Sci U S A. 2020 Jan 21;117(3):1496-1503.

NCBI - WWW Error Blocked Diagnostic

確認したいこと

  • trRosettaの概要

要旨

アミノ酸残基間の距離だけではなく、配向情報を利用した深層学習アプローチにより、タンパク質構造の予測精度が向上した

解説など

タイトルやアブストラクトでの言及がないのですが、本論文は、trRosettaの手法を紹介した最初期の文献だと思います。

trRosettaでは、入力情報としてマルチプル配列アライメントを使用し、全残基対の相対距離と方向の2種類を予測します。具体的には、相対距離dと、3個の二面角(ω、θ12、θ21)と2個の平面角(φ12、φ21)の計6つです。

モデルのアーキテクチャはCNNで、PDBに登録された15,000のデータをもとにモデルが構築されました。

予測モデルの精度を、CASP13で利用された標的タンパク質を用いて評価すると、その他の深層学習ベースのタンパク構造予測手法である、Alphafold、RaptorXなどと比較して、優れたTMスコアを示しました。

またその精度は、残基間の配向を考慮することで優位に向上していることがわかりました。距離と配向の効果は相補的であり、両方を用いることでより良いモデルが構築できるといいます。

また、trRosettaは、天然タンパク質とは無関係なde novoデザインタンパク質に対する構造予測のパフォーマンスが、Alphafoldに比べて特に優れていたとのことです。Alphafoldとは異なり、共進化情報を特徴量として利用しないため、このモデルが配列と構造の物理的な特徴を正確にとらえていると考えられます。

本論文で記載のあるtrRosettaは、下記のリンクから利用することができます。またtrRosetta2と呼ばれる新バージョンも存在しているようです。ご興味のある方はご覧いただければと思います。

https://yanglab.nankai.edu.cn/trRosetta/
GitHub - gjoni/trRosetta: A package to predict protein inter-residue geometries from sequence data
A package to predict protein inter-residue geometries from sequence data - GitHub - gjoni/trRosetta: A package to predict protein inter-residue geometries from ...

コメント