【de novoデザイン】拡散モデルでタンパク質のスキャフォールドデザインができるProteinSGMを紹介

論文タイトル

ProteinSGM: Score-based generative modeling for de novo protein design

出典

https://www.biorxiv.org/content/10.1101/2022.07.13.499967v1

確認したいこと

深層学習を利用した、タンパク質デザイン手法

要旨

スコアベースのタンパク質構造生成モデルである、ProteinSGMを提案した論文です。

用語

  • SDE: Stochastic Differential Equations

解説など

背景

筆者らの提案するProteinSGMは、拡散モデル(Diffusion model)の一形態である、スコアベース生成モデルに基づくタンパク質デザイン手法です。

これまで、このアルゴリズムをタンパク質の構造生成に応用した例は限られていました。本手法では、確率微分方程式によるスコアベース生成モデルの、連続時間フレームワークを用いてモデルを構築しています。これをタンパク質のデザインに応用した例は初めてとのことです。

手法

ProteinSGMでは、タンパク質の情報を残基間の6D座標として表現して、モデルの訓練データに利用しています。6Dとは、以下に示すパラメータを表します。

  • Cβ-Cβ間距離(d x 4)
  • ねじれ角(ω, θ)
  • 平面角(φ)(φとθは非対称)

タンパク質構造ごとに以下のステップを通じて、6D座標が生成されます。

  • 骨格構造のエネルギー最小化(MinMover)
  • 固定骨格デザイン(FastDesign)
  • 全原子緩和(FastRelax)

これを訓練データとして、スコアベース生成モデルを構築します。

本モデルを用いて、以下2つの手法でタンパク質構造をデザインすることができます。

  • Unconditional generation(無条件のタンパク質構造生成)
  • Conditional generation(指定したタンパク質の部分構造を生成)

Unconditional generationへの適用

本モデルを用いて966個の構造生成を行い、その性質を評価しています。

長鎖のデザインは比較的起こりにくいものの、デザインされるタンパク質長の分布は天然のものと同等でした。

また、生成した全検体にわたって、Rosettaエネルギーは天然のものに匹敵する負の値を示しました。これまで報告されたデザイン手法の中では、初めてであったとのことです。

生成された2次構造は天然の構造と比較すると、αヘリックスやβシートの割合が低かったそうです。

Conditional generationへの適用

50種類のタンパク質に対して、マスクされた領域にオリジナルの2次構造を生成することができるか検証しています。ほとんどすべての生成構造が目的の2次構造を有していました。しかし、比較するとβシートの生成が困難であったとのことです。

今後の展望

本手法では、256残基より大きいサイズのタンパク質を生成することはできません。また、スキャフォールドのデザインにフォーカスしているため相互作用界面のデザインには、さらなる改良が必要です。

コメント