【CASPでハイスコア】DLタンパク質構造予測手法のまとめ

論文タイトル

Deep Learning-Based Advances in Protein Structure Prediction

出典

Int J Mol Sci. 2021 May 24;22(11):5553.

Deep Learning-Based Advances in Protein Structure Prediction - PubMed

Obtaining an accurate description of protein structure is a fundamental step toward understanding the underpinning of biology. Although recent advances in exper...

確認したいこと

タンパク質構造予測への機械学習の活用方法と最新の事例

要旨

深層学習を利用した各タンパク質構造予測手法の特徴を紹介した、レビュー論文です。

用語

MSA: Multiple Sequence Alignment
QA: Quality assessment

章立て

緒言
タンパク質構造予測パイプラインの様々な解析ステップにおける、深層学習手法の進展
1. マルチプル配列アライメントの進展
2. タンパク質コンタクトマップ予測の進展
  1. RaptorX-Contact
  2. ResPre
  3. MapPred
  4. DEEPCON
  5. DeepECA
  6. ContactGAN
  7. InterPretContactMap
  8. TripletRes
  9. タンパク質コンタクトマップ予測手法のまとめ
3. ディストグラム予測の進展
  1. Xuのアプローチによるディストグラム予測
  2. Alphafoldにおけるディストグラム予測
  3. ProSPrtrRosettaにおけるディストグラム予測
  4. AttentiveDist
  5. ディストグラム予測手法のまとめ
4. 実数値距離予測の進展
  1. PDNET
  2. GANベースの実数値距離予測
  3. Xuのアプローチによる実数値距離予測
  4. RealDist
  5. DeepDist
  6. DISTEVAL
  7. 実数値距離予測手法のまとめ
5. モデルのランキング、品質評価、精緻化手法の進展
  1. QDeep
  2. ResNetQA
  3. MULTICOM EMA Predictors
  4. DeepAccNEt
  5. まとめ
タンパク質構造予測パイプラインにおける深層学習手法の進展
1. タンパク質構造予測パイプラインの進展
  1. AlphaFold
  2. trRosetta
  3. RaptorX
  4. MULTICOM
  5. C-QUARK/C-I-TASSER
  6. まとめ
2. エンドツーエンドのタンパク質構造予測パイプラインの進展
  1. NEMO
  2. AlQuraishiのRGN
  3. Alphafold2
  4. まとめ
クライオ電顕によるタンパク質構造決定における深層学習手法の進展
1. 単粒子ピッキングのための深層学習手法
  1. PIXER
  2. CASSPER
  3. MicroGraphCleaner
  4. AutoCryoPiker
2. タンパク質骨格予測のための深層学習手法
3. 二次構造予測のための深層学習手法
4. タンパク質複合体の全原子構造同定のための深層学習手法
5. クライオ電顕からタンパク質の運動性情報を取得するための深層学習手法
6. EMマップの生成・精密化ツール
  1. EMRefiner
  2. SuperEm
  3. まとめ
将来展望と結言
1. MSA生成のためのより良い深層学習アルゴリズム
2. タンパク質構造予測におけるトランスフォーマーベースのオープンソース技術
3. 複数ドメインを有するタンパク質構造予測手法の開発
4. 説明可能なAI技術

解説など

本論文は、タンパク質構造予測における深層学習手法についてまとめられたレビューです。先日のブログで紹介した論文と比べて以下の点に特徴があります。

機械学習のアーキテクチャよりも、タンパク質工学の課題解決に特化した内容
構造予測の中間ステップにおける解析過程が詳説されている
クライオ電顕による構造決定への活用方法が詳説されている

また、文章の構成が体系だっていて、全体像の理解がとてもよく進みます。本論文では解析ステップごとに、具体的な開発された手法が並列に紹介され、最後に小括するという流れで、説明が続きます。詳細は上記の章立てをご覧ください。本文の中で各トピックを詳述するレビューも丁寧に引用されていました。

タンパク質の構造を予測するための指標として、具体的に以下の3種類が挙げられます。

コンタクトマップ
ディストグラム
実数値距離

1対のアミノ酸は、それらのβ炭素原子間の距離が8 Å以下であれば、接触していると定義できます。タンパク質のアミノ酸残基数をLとすると、L x Lの組み合わせに対して、接触の有無を示す0/1が与えられたコンタクトマップで、タンパク質内部のアミノ酸の相互作用を表現することができます。

アミノ酸配列において、連続する6残基未満の間における相互作用は「局所的」、6-11残基内の場合は「短距離的」、12-23残基内の場合は「中距離的」、24残基以上の場合は「長距離的」であると定義できます。このうち局所的な相互作用は、2次構造情報をとらえますが、中距離および長距離における相互作用は、フォールディングやタンパク質の形状を正確に予測するために重要であることがわかっています。従って、コンタクトマップを予測においては、中・長距離相互作用をできるだけ正確に予測することに焦点が当てられています。

3D構造を再構築するために、L x L の全組み合わせのコンタクトマップは不要です。従って予測されたコンタクトマップのパフォーマンスは、接触確率の高いトップLまたは 2 x L で評価されます。

現在では後述するディストグラム予測や実数値距離予測が主流となっています。これらはコンタクトマップよりはるかに豊富な情報を提供します。

ディストグラム予測においては、特定のアミノ酸の残基間の距離を、8Åを閾値に0/1で表現するのではなく、2値以上にカテゴライズして表現します。一方、実数値距離予測では、その名のとおり、残基間の距離が実数値で記述されます。

本文で解説された具体的な手法の、ツール名、モデルのアーキテクチャ、特徴、ウェブサーバURLが表1で整理されています。CASPで成果を出した手法の情報を体系的に得るには、大変参考になるでしょう。