論文タイトル
Protein Structure Prediction: Conventional and Deep Learning Perspectives
出典
Protein J. 2021 Aug;40(4):522-544.

Protein Structure Prediction: Conventional and Deep Learning Perspectives - PubMed
Protein structure prediction is a way to bridge the sequence-structure gap, one of the main challenges in computational biology and chemistry. Predicting any pr...
確認したいこと
- タンパク質の構造予測手法、ツールの整理
 - 予測精度、今後の課題
 
要旨
タンパク質の構造を予測する手法について、体系的に解説されています。
章立て
- 緒言
- CASP(タンパク質構造予測コンペ)
 
 - タンパク質構造予測における従来法
- ホモロジーモデリング
 - Threading 法
 - 鋳型構造を利用しないモデリング
- フラグメントベースモデリング
 
 
 - タンパク質構造予測におけるAI技術
- タンパク質の言語表現
 - 深層学習を用いたタンパク質構造予測
 - タンパク質の2次元表現
 - 深層学習用のデータセット
 - 深層学習のアーキテクチャ
- CNN
 - RNN
 - LSTM
 - Attention
 
 
 - タンパク質構造予測の評価指標
 - 結言
 
考察など
初学者にとって、各手法の原理や特徴についての完全な理解は、難しい印象です。手法を体系的に分類するための切り口や、どの技術がどのカテゴリに存在するかの理解に努めました。
本論文では、機械学習を使用しない手法と使用する手法に分けて、タンパク質構造予測手法を解説しています。
機械学習を使用しない手法としては、さらに鋳型タンパク質構造を利用した手法と、利用しない手法が存在します。
機械学習を使用しない手法
鋳型タンパク質構造を利用した手法
- ホモロジーモデリング:祖先配列の構造を鋳型(MODELLER, SWISS-MODEL etc.)
 - 比較モデリング:祖先でない類似配列を鋳型
 - スレッドベースモデリング:配列的に無関係で、構造が類似のタンパク質を利用(EigenTHREADER, RosettaMP)
 
鋳型タンパク質の構造を利用しない手法
- ab inito法:物理化学的に計算する手法(ASTRO-FOLD, AMBER etc.)
 - フラグメントベース法:既知の短鎖フラグメントのライブラリデータセットから、構造を探索する手法(FRAGFOLD, I-TASSSER etc.)
 
機械学習を利用した手法
自然言語処理に用いられるモデル
- Recurrent Geometric Network (RGN)
 - Universal Tramsforming Geometric Network (UTGN)
 - Transformer
 - BERT
 
タンパク質の構造予測モデル
- TAPE
 - ProTrans
 - Alphafold
 
タンパク質構造のデータセット
- PDB (Protein Data Bank)
 - PISCES (A Protein Sequence Culling Server)
 - ProteinNet
 - Pfam
 
タンパク質構造予測に用いる評価指標
- RMSD:平均二乗偏差(Room Mean Square Deviation)。原子間の平均距離に基づく。
 - GDT-TS:グローバル距離テストにおけるトータルスコア。最も一般的に用いられる指標。
 
その他、GDT-HA、TM、Zスコアなどが存在する。

  
  
  
  
コメント