【タンパク質デザイン】配列と構造を同時に生成できるタンパク質デザイン用の拡散モデル ProteinGeneratorについて

論文タイトル

Joint Generation of Protein Sequence and Structure with RoseTTAFold Sequence Space Diffusion

出典

https://www.biorxiv.org/content/10.1101/2023.05.08.539766v1

確認したいこと

深層学習を用いたタンパク質デザイン手法をベンチマークしています。

要旨

拡散モデルを利用したタンパク質生成モデルである ProteinGenerator を紹介した論文です。

解説など

過去の記事で、拡散モデルを利用した、複数の代表的なタンパク質構造の生成手法を紹介してきました。

これらの手法は、構造のみを生成し、その後の配列生成は ProteinMPNN などの別の手法を利用する必要がありました。一方で、本論文で紹介する ProteinGenerator は、配列と構造を同時に生成することができます。2者間を協調的に最適化することができるため、それぞれを独立して生成するよりも利点があると考えられます。

実際に ProteinGenerator で生成された配列を、AlphaFold2 や ESMFold で予測したところ、生成した構造に非常に近く信頼性は高かったとのことでした。一方でデザインの成功率は、RFDiffusion/ProteinMPNN に比べると低いことがわかっています。

筆者らは、ProteinGenerator を次のデザインに応用した事例を紹介しています。

  • 単量体タンパク質の生成
  • 多状態変化(プロテアーゼ切断)を伴うタンパク質の生成
  • 特定のアミノ酸の出現に指向性を与えたタンパク質の生成
  • 2次構造モチーフを指定したタンパク質の生成
  • 物理化学的性質(疎水性・pI)を指定したタンパク質の生成
  • モチーフスキャフォールディング
  • 対称性をもつタンパク質の生成
  • 反復配列をもつタンパク質の生成

またGO 分類スコアなどを活用した分類器や PSSM などを用いることで、特定の構造や機能を持つタンパク質を生成することもできます。

Web インターフェースも備わっているとのことで、ぜひお試しください。

PROTEIN GENERATOR - a Hugging Face Space by merle
This app generates 3D protein structures from amino acid sequences or lengths. Users can specify secondary structure preferences, amino acid biases, and other p...

コメント