【拡散モデル】ベンチャー企業からも拡散モデルを用いたタンパク質デザイン手法が発表!その名は”Chroma”

論文タイトル

Illuminating protein space with a programmable generative model

出典

Illuminating protein space with a programmable generative model
Three billion years of evolution have produced a tremendous diversity of protein molecules, and yet the full potential of this molecular class is likely far gre...

確認したいこと

深層学習を利用した、タンパク質構造予測・デザイン手法をベンチマークしています。

要旨

拡散モデルを用いたタンパク質デザイン手法、Chromaを提案した論文です。

解説など

先日紹介したRF difussionと同じく、拡散モデルに基づくタンパク質デザイン手法を提案しています。

筆者らは、本手法をChromaと名付けています。Generate Biomedicinesというベンチャー企業からのレポートです。

Home
Generate Biomedicines is a new kind of therapeutics company—existing at the intersection of biology, machine learning, and biological engineering.

筆頭著者は、Structured Transformerを用いたタンパク質デザイン手法を過去に発表しているJohn Ingrahamです。

Chromaを構成する要素技術としては、以下の4点が挙げられます。

  • 高分子アンサンブルの立体配座を統計的に処理する拡散過程
  • ランダムグラフニューラルネットワーク
  • 同変性ニューラルネットワーク(equivariant layer)
  • 低温サンプリングアルゴリズム

無条件で構造をサンプリングした結果は、AlphaFoldによる予測構造との一致や、TERMsによる分類で評価されています。本手法は”programmability”、つまりデザインの目的を変更可能で、望みの性質を有する多様なタンパク質を設計できるといいます。この文献で紹介された応用例は下記のとおりです。

  • 対称性をもつタンパク質複合体の設計
    • cyclic
    • dihedral
    • tetrahedral
    • octahedral
    • icosahedral
  • サブ構造(機能性スキャフォールド)をもつタンパク質の設計
    • DHFR
    • VHH
    • αββ motif
    • Chymotrypsin triad
    • EF hand
  • 任意の形状を有するタンパク質の設計
    • アルファベット
    • アラビア数字
  • 2次構造やフォールド、テキストキャプションに基づく設計
    • α
    • β
    • α+β
    • βバレル
    • Rossmanフォールド
    • Igフォールド

いずれもビジュアルインパクトのある結果です。アルファベットやアラビア数字をタンパク質でデザインできていることから、タンパク質のデザイン可能性の高さが窺えます。テキストキャプションからの構造生成は面白く、例えば、”Crystal structure of Aminotransferase”というキャプションからアミノトランスフェラーゼの構造を生成しています。

天然のタンパク質では少数のCATHドメインから成るのが一般的ですが、本手法から生成された新規構造では、数十のCATHドメインから成る、というのが一つの特徴とのことです。

本文献では、ウェットでデザインタンパク質を評価した例がありません。今後の評価結果に期待したいと思います。

コメント