論文タイトル
Protein Structure Prediction: Conventional and Deep Learning Perspectives
出典
Protein J. 2021 Aug;40(4):522-544.

Protein Structure Prediction: Conventional and Deep Learning Perspectives - PubMed
Protein structure prediction is a way to bridge the sequence-structure gap, one of the main challenges in computational biology and chemistry. Predicting any pr...
確認したいこと
- タンパク質の構造予測手法、ツールの整理
- 予測精度、今後の課題
要旨
タンパク質の構造を予測する手法について、体系的に解説されています。
章立て
- 緒言
- CASP(タンパク質構造予測コンペ)
- タンパク質構造予測における従来法
- ホモロジーモデリング
- Threading 法
- 鋳型構造を利用しないモデリング
- フラグメントベースモデリング
- タンパク質構造予測におけるAI技術
- タンパク質の言語表現
- 深層学習を用いたタンパク質構造予測
- タンパク質の2次元表現
- 深層学習用のデータセット
- 深層学習のアーキテクチャ
- CNN
- RNN
- LSTM
- Attention
- タンパク質構造予測の評価指標
- 結言
考察など
初学者にとって、各手法の原理や特徴についての完全な理解は、難しい印象です。手法を体系的に分類するための切り口や、どの技術がどのカテゴリに存在するかの理解に努めました。
本論文では、機械学習を使用しない手法と使用する手法に分けて、タンパク質構造予測手法を解説しています。
機械学習を使用しない手法としては、さらに鋳型タンパク質構造を利用した手法と、利用しない手法が存在します。
機械学習を使用しない手法
鋳型タンパク質構造を利用した手法
- ホモロジーモデリング:祖先配列の構造を鋳型(MODELLER, SWISS-MODEL etc.)
- 比較モデリング:祖先でない類似配列を鋳型
- スレッドベースモデリング:配列的に無関係で、構造が類似のタンパク質を利用(EigenTHREADER, RosettaMP)
鋳型タンパク質の構造を利用しない手法
- ab inito法:物理化学的に計算する手法(ASTRO-FOLD, AMBER etc.)
- フラグメントベース法:既知の短鎖フラグメントのライブラリデータセットから、構造を探索する手法(FRAGFOLD, I-TASSSER etc.)
機械学習を利用した手法
自然言語処理に用いられるモデル
- Recurrent Geometric Network (RGN)
- Universal Tramsforming Geometric Network (UTGN)
- Transformer
- BERT
タンパク質の構造予測モデル
- TAPE
- ProTrans
- Alphafold
タンパク質構造のデータセット
- PDB (Protein Data Bank)
- PISCES (A Protein Sequence Culling Server)
- ProteinNet
- Pfam
タンパク質構造予測に用いる評価指標
- RMSD:平均二乗偏差(Room Mean Square Deviation)。原子間の平均距離に基づく。
- GDT-TS:グローバル距離テストにおけるトータルスコア。最も一般的に用いられる指標。
その他、GDT-HA、TM、Zスコアなどが存在する。
コメント