【レビュー論文】タンパク質の構造予測手法を網羅

論文タイトル

Protein Structure Prediction: Conventional and Deep Learning Perspectives

出典

Protein J. 2021 Aug;40(4):522-544.

Protein Structure Prediction: Conventional and Deep Learning Perspectives - PubMed
Protein structure prediction is a way to bridge the sequence-structure gap, one of the main challenges in computational biology and chemistry. Predicting any pr...

確認したいこと

  • タンパク質の構造予測手法、ツールの整理
  • 予測精度、今後の課題

要旨

タンパク質の構造を予測する手法について、体系的に解説されています。

章立て

  1. 緒言
    1. CASP(タンパク質構造予測コンペ)
  2. タンパク質構造予測における従来法
    1. ホモロジーモデリング
    2. Threading 法
    3. 鋳型構造を利用しないモデリング
      1. フラグメントベースモデリング
  3. タンパク質構造予測におけるAI技術
    1. タンパク質の言語表現
    2. 深層学習を用いたタンパク質構造予測
    3. タンパク質の2次元表現
    4. 深層学習用のデータセット
    5. 深層学習のアーキテクチャ
      1. CNN
      2. RNN
      3. LSTM
      4. Attention
  4. タンパク質構造予測の評価指標
  5. 結言

考察など

初学者にとって、各手法の原理や特徴についての完全な理解は、難しい印象です。手法を体系的に分類するための切り口や、どの技術がどのカテゴリに存在するかの理解に努めました。

本論文では、機械学習を使用しない手法と使用する手法に分けて、タンパク質構造予測手法を解説しています。

機械学習を使用しない手法としては、さらに鋳型タンパク質構造を利用した手法と、利用しない手法が存在します。

機械学習を使用しない手法

鋳型タンパク質構造を利用した手法
  • ホモロジーモデリング:祖先配列の構造を鋳型(MODELLER, SWISS-MODEL etc.)
  • 比較モデリング:祖先でない類似配列を鋳型
  • スレッドベースモデリング:配列的に無関係で、構造が類似のタンパク質を利用(EigenTHREADER, RosettaMP) 
鋳型タンパク質の構造を利用しない手法
  • ab inito法:物理化学的に計算する手法(ASTRO-FOLD, AMBER etc.)
  • フラグメントベース法:既知の短鎖フラグメントのライブラリデータセットから、構造を探索する手法(FRAGFOLD, I-TASSSER etc.)

機械学習を利用した手法

自然言語処理に用いられるモデル
  • Recurrent Geometric Network (RGN)
  • Universal Tramsforming Geometric Network (UTGN)
  • Transformer
  • BERT
タンパク質の構造予測モデル
  • TAPE
  • ProTrans
  • Alphafold

タンパク質構造のデータセット

  • PDB (Protein Data Bank)
  • PISCES (A Protein Sequence Culling Server)
  • ProteinNet
  • Pfam

タンパク質構造予測に用いる評価指標

  • RMSD:平均二乗偏差(Room Mean Square Deviation)。原子間の平均距離に基づく。
  • GDT-TS:グローバル距離テストにおけるトータルスコア。最も一般的に用いられる指標。

その他、GDT-HA、TM、Zスコアなどが存在する。

コメント