【de novoデザイン】タンパク質構造を直接座標で生成することができるVAEモデルを紹介

論文タイトル

End-to-End deep structure generative model for protein design

出典

End-to-End deep structure generative model for protein design
Designing protein with desirable structure and functional properties is the pinnacle of computational protein design with unlimited potentials in the scientific...

確認したいこと

深層学習を利用した、タンパク質デザイン手法

要旨

VAEベースのタンパク質構造生成モデル、CoordVAEを提案しています。

用語

  • CPD:Computational protein design

解説など

これまでに様々な深層学習モデルが登場していますが、ほとんどのモデルがトポロジー的な制約条件を生成するモデルです。したがって、ワークフロー内の構造決定には下流に特定のツール(Rosettaなど)を利用しています。

このような従来法とは別に、直接的に座標を生成する方法が考えられますが、この方法の難しい点は、対象構造の回転や平行移動等価性(translation equivariance)を適切に解釈する部分にあります。Eguchiらは、初めて座標構造生成モデルを用いたタンパク質デザイン法を提案していますが、そのデザインには固定長のタンパク質に限定されています。

IG-VAE: Generative Modeling of Immunoglobulin Proteins by Direct 3D Coordinate Generation
While deep learning models have seen increasing applications in protein science, few have been implemented for protein backbone generation—an important task in ...

本手法で提案されたCoordVAEは、VAEベースのタンパク質構造生成モデルです。

本手法の特徴は、

  • タンパク質形状の普遍的な表現を引き出すこと
  • 局所的にアライメントされた座標損失関数を用いていること

にあります。

これによって、

  • 3次元座標空間内に直接的にタンパク質構造をモデル化することができ、
  • 任意のサイズ(~500残基)のタンパク質を生成することができ、
  • 回転や平行移動等価性の解釈することができます。

コンフォメーションデコイを用いたデザインパイプラインは、下記の手順で実行されます。

  • TopoBuilderなどのトポロジー設計プログラムから、鋳型となる骨格構造を選抜する
  • CoordVAEを用いて、入力主鎖を元に配列ライブラリーを生成する
  • AlphaFoldなどの構造予測手法で、望みの構造を示す配列をフィルタリングする

1つのGPU上で、1分間に数千の配列を生成することができるそうです。

AlphaFold2を用いた検証を通じて、CoordVAEは、856/1016(84.3%)の精度で、精度の高いタンパク質をデザインできることを示しています。

また、本モデルをもとに抗体のCDRに対してinpaintingを適用しています。モデルを抗体構造でコンディショニングすることで、従来の手法と比較して優れた抗体配列を生成することに成功しています。

コメント