論文タイトル
Conditional Protein Denoising Diffusion Generates Programmable Endonucleases
出典
確認したいこと
深層学習を用いたタンパク質デザイン手法をベンチマークしています。
要旨
タンパク質に適用できる拡散生成モデル CPDiffusion の開発について報告した論文です。
解説など
拡散モデルを用いたタンパク質の生成手法の代表には、RFDiffusion があります。本論文では、CPDiffusion という新しいモデルを用いてタンパク質の生成を試みています。CPDiffusion は、conditional protein diffusion model の略称です。
本文の主要なセンテンスを読む限り、RFDiffusion とのアルゴリズムにおける明確な違いは強調されていないのですが、コストパフォーマンスの高さに言及しているため、RFDiffusion に比べて少ない、構造数とパラメータ数で学習されたモデルであると考えられます。実施例においては、32,000 個の天然タンパク質の構造と、400 万個のパラメータでトレーニングをしています。
タンパク質の生成時には、主鎖骨格、2次構造、遷移マトリクスな度に対して条件付けすることが可能です。
筆者らは、このモデルを用いて、エンドヌクレアーゼの生成を試みています。全体の pLDDT スコアや WT と生成モデルとの pLDDT スコアの差分で生成モデルの足切りを行い、ウェットの評価に進める27種のデザインを決定しています。結果として、発現した27種がすべて高いよう改正を示し、うち24種類は DNA の切断活性を示したとのことです。配列の相同性は40%と比較的低く、200-400個の変異が含まれています。
本手法では、700残基近くの長鎖タンパク質を生成することに成功していることが特徴です。
コメント