【タンパク質デザイン】柔軟性の高い配列を生成できる ProteinMPNN の改良モデル、Flexpert を紹介!

論文タイトル

Learning to engineer protein flexibility

出典

Learning to engineer protein flexibility
Generative machine learning models are increasingly being used to design novel proteins for therapeutic and biotechnological applications. However, the current ...

要旨

タンパク質の柔軟性を予測し、柔軟性の高い配列を設計する手法 Flexpert を紹介した論文です。

解説など

チェコ工科大学からの報告です。

タンパク質の柔軟性を評価する一般的な方法は MD シミュレーションです。シミュレーションをもとに出力される Root Mean Square Fluctuations (RMSF) と呼ばれる指標は、特定のタンパク質の柔軟性を残基単位で表します。近年では、Elastic Network Models (ENM)、Gaussian Network Models (GNM)、Anisotropic Network Models (ANM) などが開発され、MD シミュレーションの結果をもとに、さらに精度高く RMSF を算出することが可能になっています。PDB に登録された B-factor なども柔軟性を表す指標の一つですが、人工的に作成された結晶格子にもとづく値のため信頼性は RMSF に比べて高くありません。近年では AlphaFold2 や ESMFold の pLDDT を指標にタンパク質の柔軟性を予測することも可能です。

筆者らは精度が高く、MDシミュレーションより高速に特定のタンパク質の柔軟性を予測できる手法 Flexpert を開発しました。このツールの中には、

  • Flexpert-Seq:タンパク質のアミノ酸配列から柔軟性を予測
  • Flexpert-3D:タンパク質の構造から柔軟性を予測

の2つの種類が存在します。

本手法を、MD シミュレーションの実行結果が格納されている ATLAS データセットで評価したところ、AF2/ESMFold ベースの予測に比べて高い精度で RMSF の予測ができたとのことです。

さらに筆者らは、柔軟性の高いタンパク質を生成するための inverse folding model の開発にも着手しています。彼らが開発した Flexpert-Design は ProteinMPNN をベースにファインチューニングしたモデルです。本手法で配列設計すると、通常よりも柔軟性の高さに指向性を与えた配列が設計できます。出力の傾向をみるとA/G/Hなどのアミノ酸が通常よりも頻度が高く出現している様子です。

コードは今後公開される予定とのことです。