【タンパク質デザイン】逆折り畳み問題を精緻に解く

論文タイトル

Protein Sequence Design by Entropy-based Iterative Refinement

出典

Protein Sequence Design by Entropy-based Iterative Refinement
Inverse Protein Folding (IPF) is an important task of protein design, which aims to design sequences compatible with a given backbone structure. Despite the pro...

確認したいこと

深層学習を用いたタンパク質のデザイン手法について調査をしています。

要旨

主鎖構造からの配列設計する逆折り畳み問題を精緻する手法を紹介した論文です。

解説など

主鎖構造をもとにアミノ酸配列をデザインする代表的な手法にProteinMPNNがあります。ProteinMPNNのように、自己回帰的に前のアミノ酸残基に依存して逐次的に配列を生成する手法は、誤差が蓄積しやすいことが課題として挙げられていました。また前後すべてのアミノ酸残基に紐づく特徴量を元に配列を生成する手法として、ABACUS-Rという手法もあるのですが、生成配列の収束が遅く、計算コストと生成誤差のバランスが課題であると述べられています。

本論文では、残基間の特徴を前後問わずに優先度の高い残基から優先的に活用して、生成された配列を精緻化する手法を提案しています。

生成ステップは2段階に分かれます。初期配列を生成する”Initial prediction”と、初期配列から精緻化する”iterative refinement”の2ステップです。

この精緻化ステップは、従来の配列設計手法に接続して利用することができます。本論文では、以下の配列設計手法に、この精緻化ステップを採用したときに生成の精度がどれくらい改善するかを評価しています。

  • GVP-GNN
  • ProteinMPNN
  • ProteinMPNN-C
  • ESM-IF1

ProteinMPNNについては、PDBの代わりにCATH4.2のデータセットを用いて訓練したモデルをProteinMPNN-Cと呼び、区別して評価しています。結果として精緻化ステップを組み込むことで生成精度が2~20%改善できることが示されています。

配列生成は、計算コストがかかる工程ですので、どれくらい高速に生成できるのかも気になるところです。

コメント