【de novoデザイン】GNNモデルの計算機デザイン手法”Structured Transformer”について

論文タイトル

Generative models for graph-based protein design

出典

Generative Models for Graph-Based Protein Design

確認したいこと

深層学習を利用した、タンパク質デザイン手法

要旨

GNNモデルをベースのタンパク質計算機デザイン手法、Structured Transformerについて提案した論文です。

用語

GNN: Graph Neural Network

解説など

過去の記事で、GNNモデルとTERMSのコンセプトを組み合わせて、タンパク質をデザインする手法を紹介しました。

本記事では、この論文でも引用されているGNNを利用した計算機タンパク質デザイン手法を紹介したいと思います。

背景

本論文がベンチマークとするデザイン手法のひとつに、タンパク質の１次構造（アミノ酸配列）をもとにモデルを構築するパラメトリックなアプローチがあります。タンパク質の高次構造はその機能において重要ですので、１次構造上の距離（残基番号の差）が3次構造における距離とは相関しないケースは多々あります。

本論文で紹介するGNNでは、タンパク質の構造を、アミノ酸残基間の相互作用の集合として取り扱います。アミノ酸残基間の関係性をグラフ理論で取り扱うエッジやノードとして表現することで、グラフベースの深層学習モデルを構築するのが本手法です。筆者らはTransformerを活用して、デザインモデルを構築しています。

モデルの性能評価

モデルの訓練には、CATHのタンパク質構造データセットを利用しています（training: 18,024, validation:608, test: 1,120）。

本論文では、タンパク質の計算機デザインに広く利用されているRosettaとデザイン精度を比較しています。

筆者らのStructured Transformerモデルに関する主な特徴は以下のとおりです。

他のモデルと比較して、低いパープレキシティを示す
Rosetta fixbbと比べて、デザインの計算速度が早く、配列の回収率も高い