【de novoデザイン】拡散モデルを利用したタンパク質デザイン手法を紹介

論文タイトル

Protein Structure and Sequence Generation with Equivariant Denoising Diffusion Probabilistic Models

出典

Protein Structure and Sequence Generation with Equivariant Denoising Diffusion Probabilistic Models
Proteins are macromolecules that mediate a significant fraction of the cellular processes that underlie life. An important task in bioengineering is designing p...

確認したいこと

  • 深層学習を利用した、タンパク質デザイン手法

要旨

“Diffusion Probabilistic Models”をタンパク質デザインに応用した手法を提案した論文です。

解説など

画像解析において、ここまで活躍している深層学習が、タンパク質構造予測や設計においては、いまだ課題の多い状況であるのは、以下の理由が挙げられると、筆者らは述べています。

  • 画像と比べてタンパク質構造は、適切なグリッド構造を定義できないこと
  • 画像と比べてタンパク質構造は、標準的な向きが定義できないこと
  • タンパク質は、局所的な構造変化により、全体へ及ぼす影響が大きいこと

特に3番目は納得の理由と感じます。同じ複雑さを有していたとしても、1本の鎖で結ばれていることによる非独立性は考慮に入れる必要があります。

筆者らは、数あるタンパク質設計におけるモデルの中で、拡散モデルを活用しています。モデルの訓練はPDBに登録されたCATH4.2データセットを使用しています。筆者らは、訓練したモデルで、

  • 文脈の無しのデノボデザイン
  • inpainting(条件付きデザイン)

の2種類のデザインを検討しています。

デノボデザインの結果からは、以下の結果が示されました。

  • ヘリックス、βシート、分子内水素結合の存在が確認された
  • 生成された主鎖ねじれ角の分布は、ラマチャンドランブロットと一致している
  • βシートは相対的に構築しにくい

これに対して、inpaintingの検討結果は、次のとおりでした。

  • inpaintingされた領域は、天然構造と一致していた
  • デザインした領域は、天然構造の変異体の域を超えて異なるトポロジーを形成した(ループ長の変更など)

拡散モデルの利用は、既往の手法と比較しても珍しいアプローチです。これまで提唱されたモデルをベンチマークとした比較検証が期待されます。

コメント

Updating cart

お買い物かご