【タンパク質構造解析】深層学習を活用した、タンパク質のモデリングとデザイン

論文タイトル

Deep Learning in Protein Structural Modeling and Design

出典

Patterns (N Y). 2020 Nov 12;1(9):100142.

Deep Learning in Protein Structural Modeling and Design - PubMed

Deep learning is catalyzing a scientific revolution fueled by big data, accessible toolkits, and powerful computational resources, impacting many fields, includ...

確認したいこと

タンパク質の構造予測における深層学習の活用事例と手法

要旨

タンパク質の構造モデリングとデザインに対して、深層学習を適応した研究がレビューされています。

用語

NLP: Natural Language Processing
CNN: Convolutional Neural Networks
RNN: Recurrent Neural Networks
VAE: Variational Autoencoder
GAN: Generative Adversarial Network

章立て

緒言
1. タンパク質構造の予測とデザイン
2. 課題の明確化
3. 従来の計算予測手法
深層学習のアーキテクチャ
1. CNN
2. RNN
3. VAE
4. GAN
タンパク質の表現と機能予測
1. アミノ酸配列の表現方法
2. アミノ酸配列から学習された表現
3. タンパク質構造の表現方法
4. スコア関数と力場
5. 粗視化モデル
構造の決定
1. タンパク質構造の予測
2. 関連する深層学習の活用方法
タンパク質のデザイン
1. アミノ酸配列からの直接的な機能デザイン
2. 構造予測を経由した機能デザイン
展望と結言
1. 実験的な検証
2. ベンチマーキングの重要性
3. 物理パラメータによる事前設定を適用する
4. 閉鎖ループのデザイン
5. 強化学習
6. モデルの解釈性
7. タンパク質以外への適用
8. 配列-構造-機能のパラダイム

解説など

タンパク質の構造予測における深層学習技術の活用は、現在目覚ましい成果を挙げています。CASP13以降の比較モデリングの難しい構造予測分野において、深層学習を活用したモデルが良い成績を示しています。

本レビューでは深層学習のタンパク質工学への適用を、教科書的に非常にボリューム豊かに解説されています。

タンパク質工学に利用される深層学習のアーキテクチャには以下のものが存在します。

Convolutional Neural Networks (CNN)
Recurrent Neural Networks (RNN)
Variational Autoencoder (VAE)
Generative Adversarial Network (GAN)

アミノ酸配列の入力データとしての表現方法には、簡便な手法としてone-hot encodingが利用されます。また、配列以外の付加情報として、以下に挙げる指標も採用されるケースがあります。

予測された二次構造
細胞内局在
機能
AAIndex
親水性
水素結合
電荷
溶媒接近可能性
ねじれ角
アライメント (MSA)
位置特異的スコアリングマトリクス (PSSM)
ペアワイズ残基共進化特徴

タンパク質データベースに存在する既存のドメイン情報を活用した、効率的な表現方法も存在します。

Word2Vec
Doc2Vec
ProtVec
Unirep
双方向LSTMモデル
Transformerモデル
VAEモデル

Raoらの評価によると、従来のアライメントに基づく表現方法のほうが、依然として現在の自己監視モデルの成績より上回っていたとのことです。いずれの表現方法が優れているかは、目的や対象に応じてまだ議論の必要があると感じました。

次は、構造情報の表現方法についてです。生の3D情報（原子座標など）を用いることは、やはり非現実的であるとのことです。代替として、以下の方法が存在します。

原子近傍をボクセル化
1Dストリング
タンパク質骨格のねじれ角で定義
3Dタンパク質構造の2D投影
グラフ（連結された節点の集合）
MaSIF

特に2D投影は、広く利用されている印象でした。

モデルを順位づけるためのスコア関数は、タンパク質モデリングの重要な要素です。スコア関数を深層学習で学習するための手法は、大きく以下の２つに分類されます。

フィンガープリントベース
グラフベース

ここまでで、深層学習を活用するための主要な技術要素について解説してきました。ここからは実際にタンパク質の構造予測に適用された具体的なモデルと成果についてです。この記事では代表的なAlphafoldの概要について紹介します。

AlphafoldはCASP13, 14において、テンプレートフリーモデリングの成績を大きく上げた手法です。従来のシミュレーテッドアニーリングに基づく手法を改良しています。距離予測のネットワークについては、ResNetが用いられています。また、第2のネットワークには、GDT_TSを予測するように訓練されています。Alphafoldによる予測精度は、学習された距離分布と、共進化データに大きく依存すると言及されていました。

深層学習は直接的な構造予測以外にも、以下の用途に応用されています。

アミノ酸側鎖予測
タンパク質間相互作用予測
膜貫通ドメイントポロジー予測
ループモデリング

つぎは、目的の機能をもつタンパク質デザインへの深層学習の適用です。この目的におけるアプローチは、広く以下の２種類に分類されます。

アミノ酸配列とタンパク質機能との関係を直接学習する
タンパク質構造予測を経て、その機能を予測する

前者においては、下記に示す事例が存在します。

モデル	標的例
LSTM RNN	抗菌ペプチド
CNN	ラマ由来ナイーブ抗体レパトア
VAE (PepCVAE)	抗菌ペプチド
GAN	標的タンパク質に結合するDNA配列

構造を経由してタンパク質をデザインするためには、まず望みの機能に従って、必要なタンパク質の折りたたみやトポロジーを決定します。その後、その構造に折りたたまれるアミノ酸配列を決定します。

教師あり学習においては、そのモデルの精度を天然の配列の回収率（天然の配列と一致する提案配列の割合）を用いて評価するとのことです。従来のde novoデザインではその値が27%であったところが、Anandらの研究により87%まで改善していると報告されています。

深層学習を利用した研究例は新しく、ウェットの実験による証明がなされていない事例も多数あります。またモデルを改良するために、実験データを取得し訓練データセットを随時更新する、クローズドループの重要性も指摘されているところです。データ取得とアーキテクチャの改良の両輪から、手法の最適化が進むことが期待されます。