【タンパク質デザイン】RFDiffusionを超える設計可能性を示すProteusとは

論文タイトル

Proteus: exploring protein structure generation for enhanced designability and efficiency

出典

Proteus: exploring protein structure generation for enhanced designability and efficiency
The development of de novo protein design method is crucial for widespread applications in biology and chemistry. Protein backbone diffusion aims to generate de...

要旨

グラフベースのタンパク質デザインモデル、Proteus について紹介した論文です。

解説など

タンパク質デザインの新法の紹介です。

最新のタンパク質構造生成モデルとしては RFDiffusion が代表的ですが、このモデルは Rosettafold2 のネットワークを事前学習したモデルであり、モデルのアーキテクチャを修正することが難しいことが、デザイン手法を最適化するモチベーションがあるディベロパーにとっては課題でした。

一方で、事前学習の不要な拡散生成モデルとして、FoldingDiff などの手法が開発されていますが、この手の手法は designability、つまり望みの構造を形成できるアミノ酸配列を提案できる可能性が低いことが知られています。

そこで筆者らは、事前学習が不要かつ、designability が高いモデル (Proteus) を構築しました。

モデルのアーキテクチャの詳細は原文に譲りますが、グラフベースのモデルになります。ノード・エッジ表現と、構造フレームの3種のトラックを入力情報として活用します。

彼らは、Proteusを評価する指標として、designability, efficiency, diversity の3種類の用いています。designabilityは、生成した構造を ProteinMPNN → ESMFold でモデリングして、生成構造と一致しているかで評価しています。efficiency は、RMSD 指標のデザイン成功率を、計算リソース単位で換算しています。diversity は、MaxCluster を活用して生成構造を分類することで評価しています。

彼らは以下に示す既存のモデルと Proteus を比較評価しています。

  • RFDiffusion
  • GENIE
  • FrameDiff
  • Chroma

驚くべきことに、designability、efficiency ともに RFDiffusion を含む既存のモデルに対して、Proteus は優れた成績を示しています。コードは公開されていませんが、続報が期待されます。