アミノ酸配列のみを用いた拡散生成モデルでタンパク質をデザインする手法 EvoDiff とは

論文タイトル

Protein generation with evolutionary diffusion: sequence is all you need

出典

https://www.biorxiv.org/content/10.1101/2023.09.11.556673v1

確認したいこと

深層学習を用いたタンパク質のデザイン手法について、ベンチマークをしています。

要旨

タンパク質のアミノ酸情報のみを用いて構築された、タンパク質の拡散生成モデル EvoDiff について紹介した論文です。

解説など

EvoDiff は、タンパク質のアミノ配列情報のみに基づいて構築された拡散生成モデルです。条件付きでアミノ酸配列を生成することができます。

筆者らが構築したモデルは、以下の2つです。

  • EvoDiff-MSA
  • EcoDiff-Seq

EvoDiff-MSA は、OpenFold に由来する 382,​​296 個の MSA から学習したモデルです。一方で EvoDiff-Seq は、約 4,500 万のタンパク質配列を含む UniRef50 からトレーニングされています。

どちらも、RF Diffusion などの既存の構造デザイン用途の拡散モデルとは、数学的に異なる方法で定式化されています。

筆者らは、EvoDiff を用いて、以下の問題を解くことを試みています。

  • 特定の MSAから分子進化学的に適した配列のデザイン
  • Inpainting
  • モチーフスキャフォールディング

“Nativeness”に着目すると、EvoDiff は、RF Diffusion や ESM-2 に比べて、天然の配列空間をに近しいレパトアを生成することが示されています。これは、RF Difussion などではヘリックス性の構造を生成する傾向が強く、EvoDiff は他の2次構造や非構造化領域の特徴を、天然と同程度の出現頻度で生成する傾向にあるためだと考えられます。また、モチーフスキャフォールディングの問題を例にとると、ケースに応じて、EvoDiff が適している場合と、RF Diffusion が適している場合があるとのことです。

既存の手法に対して、純粋な性能向上を望める成績ではありませんが、多様なデザインスペースから探索するために、本手法は有用であると考えられます。

コードは、以下のリンクから参照できます。

GitHub - microsoft/evodiff: Generation of protein sequences and evolutionary alignments via discrete diffusion models
Generation of protein sequences and evolutionary alignments via discrete diffusion models - microsoft/evodiff