タンパク質の「フォールド」から「配列」を生成

論文タイトル

Fold2Seq: A Joint Sequence(1D)-Fold(3D) Embedding-based Generative Model for Protein Design

出典

Fold2Seq: A Joint Sequence(1D)-Fold(3D) Embedding-based Generative Model for Protein Design
Designing novel protein sequences for a desired 3D topological fold is a fundamental yet non-trivial task in protein engineering. Challenges exist due to the co...

確認したいこと

深層学習を利用した、タンパク質構造予測・デザイン手法をベンチマークしています。

要旨

タンパク質の「フォールド」から「アミノ酸配列」を予測する手法、Fold2Seqを提案した論文です。

解説など

ここで言及している「フォールド」とは、主に2次構造(SSEs)のような局所的な構造特徴です。原子や残基座標、または残基間距離や配向にもとづく構造情報から、配列をデザインする手法(structure-based design)は、世の中にたくさんあり、これまでに本ブログでも解説してきました。しかし、2次構造のような構造モチーフから配列を予測する手法(fold-based design)は、数多くありません。

Fold-based designが可能になると、解像度が低いタンパク質構造や血管残基の補完が可能になると考えられます。

fold-based designを実現するための課題は、大きく以下の2つです。

  1. フォールドを表現するエンベディング方法の確立
  2. 配列とフォールド間の関係性の理解

これらについて独自の手法で解決を試みたのが、Fold2Seqです。

1は、既往の手法ではマニュアルにラベル化したり、ドメイン知識をもとにルールベースで分類する手法が一般的でしたが、本手法では、この目的のためにtransformerを用いたエンコーダを採用しています。

また、2に関しては、Joint embedding learningという手法によって、解決を試みています。

MNISTでjoint embeddingしてみた - Qiita
更新2022/09/12Google Colab はこちら!(若干修正が入ってます)…

筆者らは、Fold2Seqを、以下の手法と比較検証を行っています。

Fold based design
  • cVAE
  • gcWGAN
Structure-based design
  • Graph_trans
Physics-based
  • RosettaDesign

評価指標としては、以下を採用しており、Ablation studyなども実施されていました。

  • Per-residue perplexity
  • Sequence recovery
  • Coverage
  • Structure recovery

調査したいこと

本文献より前に公開されたフォールドを含む形でデザインする手法には、以下のような方法が存在します。これらとFold2Seqの違いを深堀してみたいと思いました。

Greener et al. (2018)

Karimi et al. (2020)

コメント