【de novoデザイン】TERMsを利用したグラフベースのタンパク質デザイン手法を紹介

論文タイトル

Neural Network-Derived Potts Models for Structure-Based Protein Design using Backbone Atomic Coordinates and Tertiary Motifs

出典

Just a moment...

確認したいこと

深層学習を用いたタンパク質のデノボデザイン手法

要旨

既存のGNNモデルにTERMを活用した、タンパク質デザイン手法TERMinatorを提案した論文です。

用語

  • TERMs: Tertiary Motifs
  • GNN: graph neural network
  • NSR: native sequence recovery
  • TIC: TERM Information Condenser
  • GPME: GNN Potts Model Encoder
  • MPNN: Message Passing Neural Network
  • GVP: Geometric Vector Perceptrons

解説など

背景

これまでに、グラフベースニューラルネットワーク(GNN)を用いたタンパク質デザイン手法が、多数報告されています。従来のGNNベースの手法には、以下の課題点が存在しました。

  • 非常に多数のモデルパラメータを使用するため、訓練データに応じてモデルがオーバーフィッティングする傾向にある
  • 残基の出現確率を予測するモデルであるため、特定の目的をもつタスクに適用できない(残基間相互作用の探索や、高い溶解度を持つタンパク質を設計するなど)

本手法の特徴

上記の課題を解決するために、筆者らはTERMsに着目しました。

本ブログでも、これまでにTERMsに関連する記事を複数紹介しています。

TERMを用いることで、配列と構造間の関係を定量化することができます。したがって、タンパク質の統計的なエネルギーポテンシャルを定量化することが可能です。

筆者らはGNNモデルにTERMを利用しました。これにより、従来のGNNモデルに比べて以下の改善が期待されます。

  • 固定セットの骨格座標に依存しない構造特徴づけであるため、オーバーフィッティングを軽減できる
  • エネルギー関数を出力するモデルの方が、配列を直接出力するモデルよりも、柔軟で多くのアプリケーションに利用できる

筆者らが開発した手法(TERMinator)では、TERMに由来するデータを入力して骨格座標の特徴を抽出し、エネルギー関数(Pottsモデル)を出力します。

ポッツモデルとは

ポッツモデルとは、スピンがとり得る状態に関するモデルです。

https://www.nms.ac.jp/var/rev0/0005/3210/45thebulletin_hiroshi_fujisaki_3.pdf

本論文では、エネルギーランドスペースを単一残基や残基ペア単位の貢献度に分解して記述するために、Pottsモデルを利用しています(深層学習モデルの1種ではない)。

筆者らは、TERMsを利用したTERMinatorとともに、座標情報のみを利用するCOORDinatorを活用し、本論文の中で両者の違いを比較しています。

  • TERMinator: TERMと座標情報を利用するアーキテクチャ
  • COORDinator: 座標情報のみを利用するアーキテクチャ

訓練用データセットには、以下の二種類が使用されました。

  • Ingraham Dataset:CATHトポロジー5に使用された一本鎖タンパク質構造のデータセット
  • Multichain Dataset:新しく作成した多鎖タンパク質構造のデータセット

TERMinatorの検証から、以下の得られています。

  • 配列の回収率は、既報のベンチマーク手法(dTERMenやStructured GNN)と比べて高い。
  • 複雑性の低い配列を生成する傾向がある(単一アミノ酸が高頻度に出現するなど)。
  • TERMinatorによって設計された構造は、Alphafoldの予測構造と高い精度で一致した。
  • 低い回収率でもAlphafold予測構造と一致した配列が存在することから、回収率による予測精度の判断は信頼性が低い可能性がある。
  • COORDinatorと比較し、高い配列回収率を示した。
  • COORDinatorと比較し、計算コストが高い(TERMinator: 4分/残基、COORDinator: 73μ秒/残基)
  • 出力されるPottsモデルをもとに、タンパク質の結合親和性(結合エネルギー)を予測できるか検証したところ、FoldX, Rosetta, dTERMenとほぼ同等の予測成績を示した。Multichain Datasetを利用したモデルの方が精度が高かった。
  • 実験データをもとに、予測精度を向上ためにモデルをファインチューニングすることが可能である。

コメント