【タンパク質構造予測】vector-quantized autoencoder を採用した構造予測モデルを紹介!

論文タイトル

Learning the Language of Protein Structure

出典

Learning the Language of Protein Structure
Representation learning and \emph{de novo} generation of proteins are pivotal computational biology tasks. Whilst natural language processing (NLP) techniques h...

要旨

vector-quantized autoencoder を採用したタンパク質構造予測モデルの紹介です。

解説など

タンパク質の構造予測モデルの紹介です。筆者らはシンプルなGPTモデルで、効率的にタンパク質の特徴量をエンベディングできるという方向性で、新しい手法を提案しています。

モデルのアーキテクチャの概要は Figure 1 で示されています。

  • タンパク質構造の特徴を GNN で抽出
  • 得られたエンベディングを量子化
  • デコーダーで構造を再構築
  • FAPE ロスでモデルを学習

メソッドの特徴は、量子化に vector-quantized autoendocer を採用していることです。これにより効率的にタンパク質の特徴量を抽出することができます。ちなみに Foldseek にも quantized autoencoder が採用されていますが、Foldseek では残基レベルのローカルな特徴量しか量子化できていないのに対し、本手法ではグローバルな構造予測に活用しています。

手法の性能は、designaility / novelty / diversity の観点で評価され、以下の既存の拡散モデルベースの手法と比較しています。

  • FrameDiff
  • RFDiffusion

本手法は RFDiffusion には及ばないものの、FrameDiff とは大きく劣っていないというデータが得られています。