【de novo design】またしてもタンパク質デザインのレビューを読み解く①

論文タイトル

Deep learning techniques have significantly impacted protein structure prediction and protein design

出典

Curr Opin Struct Biol. 2021 Jun;68:194-207.

Deep learning techniques have significantly impacted protein structure prediction and protein design - PubMed
Protein structure prediction and design can be regarded as two inverse processes governed by the same folding principle. Although progress remained stagnant ove...

確認したいこと

  • タンパク質デザインの最新手法

要旨

タンパク質のin silico構造予測・デザイン手法をまとめた総説です。

用語

  • REMC: replica exchange Monte Carlo

章立て

  1. 緒言
  2. タンパク質構造予測と深層学習がもたらす衝撃
    1. テンプレートベースモデリングに基づく古典的手法
    2. テンプレートフリーモデリングに基づく古典的手法
    3. テンプレートフリーモデリングを支援する残基間接触マップの活用
    4. 深層学習による正確な構造予測
    5. アテンションネットワークにより、単ドメイン構造予測問題は解決
  3. 機能性のde novoタンパク質デザインの進展
    1. de novoタンパク質デザイン
    2. 複雑な構造と機能をもつタンパク質のde novoデザイン
    3. 医療用タンパク質のde novoデザイン
    4. ユーザー定義の制約が不要なde novoデザインの精度向上
    5. タンパク質デザインへの深層学習の応用
  4. 結言と将来展望

解説など

タンパク質構造予測とデザインに対する深層学習の活用について概説する、レビュー論文です。深層学習を活用した手法だけでなく、古典的な手法からの技術開発の流れを、順を追って解説しています。

以下の記事でも、同種の総説について解説していますので、ご参照ください。

この文献に比べると、個別具体的な手法について手厚く引用されている印象です。

タンパク質構造予測について

古典的な手法としては、大きく以下の2つに分類されます。

  • テンプレートベースモデリング(TBM)
  • テンプレートフリーモデリング(FM)

テンプレートベースモデリング

テンプレートベースモデリングは、さらに以下の2つの手法に細分化されます。

  • 比較モデリング(CM):アライメントによって同定可能な相同遺伝子を鋳型に利用
  • スレディング:配列的特徴と局所的な構造特性に基づくHMMアライメントによって、より距離の遠い遺伝子を鋳型に利用

スレディングにおける局所的な構造的特徴には、ねじれ角、2次構造、溶媒露出度などが含まれます。スレディングでは、アルゴリズムによって評価基準が大きく異なるため、複数のスレディング手法を組み合わせたメタスレディングを適用することが一般的になりつつあります。

スレディングの具体的な手法を、以下に挙げます。

  • MODELLER
  • TASSER
  • I-TASSER
  • RosettaCM

この中でも、I-TASSERは、最も成功したTBMとして有名な手法です。

テンプレートフリーモデリング

FMモデルにおいては、フラグメントの組み立て(fragment assembly)が、特に重要なステップになります。これには、以下の2種類の手法が広く普及しています。

  • Rosetta
  • QUARK

いずれもモンテカルロシミュレーションによって、配列をサンプリングします。したがって、TBMと比べると計算コストが高い手法です。

また、予測した構造が局所最適な安定構造に陥らないように工夫することも、FM法のコツです。

残基間接触(inter-residue contact)は、FMモデルを構築するうえで重要な情報となります。

従来はマルチプルアライメントに基づく共進化情報をもとに、接触残基ペアの同定が試みられていました。具体的には、2箇所で生じる突然変異ペアが、異なる遺伝子間で再現されている場合、その2残基は接触しているであろうと予測する方法です。しかしこれでは、その2残基間が直接的に接触しているのか、間接的に影響しあっているのか区別することが困難です。

次第に、直接結合分析(direct coupling analysis, DCA)に基づくグローバル統計モデルが優勢になります。具体的には、以下がDCA法で用いられるモデルです。

  • Markov random field (MRF)
  • Potts model
  • PSICOV
  • ResPRE

深層学習

次は、深層学習を活用した手法を紹介します。

深層学習を利用した手法の初期の焦点は、接触残基の予測でした。これに適応できる手法としては以下が挙げられます。

  • RaptorX-Contact
  • ResPRE
  • TripletRes

次の予測対象は、残基間の距離そのものです。2残基間の距離が、所定の距離範囲内に収まる確率を予測します。この手法の代表例として挙げられるのが、AlphaFoldです。

trRosettaは、距離だけでなく、残基間のねじれ角も予測することで構造予測精度の向上を試みています。

DeepPotentialは、TripletResを拡張し、残基間接触と距離、ねじれ角、水素結合マップの集合を予測しています。

CASP14で示された最新の手法は、AlphaFold2に反映されています。この手法において、少なくともフォールドレベルで、単ドメイン構造を予測する問題は、ほぼ解決できたといえます。

次回の記事では、タンパク質デザインについて解説したいと思います。

コメント