【タンパク質デザイン】構造情報が与えられた言語モデルを用いて、タンパク質デザイン

論文タイトル

Structure-informed Language Models Are Protein Designers

出典

Structure-informed Language Models Are Protein Designers
This paper demonstrates that language models are strong structure-based protein designers. We present LM-Design, a generic approach to reprogramming sequence-ba...

確認したいこと

深層学習を用いたタンパク質デザイン手法をベンチマークしています。

要旨

言語モデルにタンパク質の構造情報を与えることで、タンパク質デザイン(配列設計)に応用できるモデル(LMDesign)を開発しています。

解説など

本研究では言語モデルを用いたタンパク質デザインへのアプローチを紹介しています。言語モデルの訓練データとなるタンパク質のアミノ酸配列は、決して情報リッチではありません。従って、構造生成を伴う目的では効果を発揮しづらい、というのが一般的な認識かと思います。筆者らは、このタンパク質アミノ酸配列言語モデル(protein language models, pLMs)に構造情報を与えることで、高い精度のタンパク質生成を行えることを示しています。

本手法で構造情報を与えられる対象となる pLMs には ESM-1b が利用されています。このモデルに対して、conditional masked language modeling (CMLM) という訓練手法で、軽量構造アダプタ(lightweight structural adapter)を導入して、構造情報を与えました。

与えられた構造からタンパク質配列を推論するために、マルコフ過程に従う反復的な精緻化で配列をサンプリングする手法を採用しています。

筆者らは、このモデル(LMDesign)を、以下に示す様々なタンパク質デザインに適用しています。

  • 固定バックボーンタンパク質デザイン
    • 一本鎖タンパク質
    • 多本鎖タンパク質
  • デノボタンパク質デザイン
  • 抗体デザイン

いずれも従来法 (ProteinMPNN)と比べて高い perplexity や recovery rate を示しています。

検証データから、LMDesignには以下のような特徴があることが示されています。

  • 構造ベースの生成モデル(PiFoldなど)をベースにモデルを構築しても、高い性能を示す
  • ProteinMPNNに比べて、データ数の増加による精度向上の効果がある

コメント