最新タンパク質言語モデル METL の正体

論文タイトル

Biophysics-based protein language models for protein engineering

出典

Biophysics-based protein language models for protein engineering
Protein language models trained on evolutionary data have emerged as powerful tools for predictive problems involving protein sequence, structure, and function....

要旨

生物物理学的な指標を活用した新しいタンパク質言語モデル (METL) を開発しています。

解説など

本論文では、新しいタンパク質言語モデルを紹介しています。既知の ESM や ProtGPT2 は進化情報を活用した代表的なタンパク質言語モデルですが、こちらの論文で紹介されているモデルでは、学習データに、

  • インシリコでデザインされた配列変異体モデルの情報
  • 生物物理化学的な情報

を積極的に活用していることが特徴です。このモデルを、Mutational Effect Transfer Learning (METL) と呼んでいます。筆者らは、多様なタンパク質に対して適応できる METL-Global と、単一のタンパク質に対して最適化された METL-Local の 2 種のモデルを構築しました。

まず初めに、学習データを生成するために、標的とするタンパク質の配列バリアントを Rosetta でモデリングしています。METL-Local の場合は、標的タンパク質に最大5つの変異を含む 2,000 万個の変異体モデルを生成、METL-Global では、148 個のタンパク質を選抜し各々に対して 200,000 個の配列変異体を生成しています。それぞれの Rosetta モデルに対して、分子表面積、溶媒和エネルギー、ファンデルワールス相互作用、水素結合などの 55 種類の生物物理学的属性値を算出して学習データに用いています。次に事前学習として、タンパク質配列の内部表現を獲得するために、トランスフォーマーエンコーダーを構築します。最後に、実験的なデータにもとづいて、このエンコーダーモデルをファインチューニングするという流れです。

構築されたモデルは、下記の既存のモデルと比較してその性能評価がなされています。

  • 線形回帰
  • Rosetta
  • EVE (evolutionary model of variant effect)
  • Linear-EVE
  • ESM-2

結果として、METL はその他のモデルに比べて、少ないファインチューニング用実験データで、高い予測精度を示していることが分かります。METL とともに、EVE も ESM-2 に比べて高い相関係数を示しており、この手法の詳細にも興味が湧きます。METL は ESM-2 などと比べると、限られたタンパク質種から、密な特定の配列空間を学習していることから、機能予測との親和性が強いのかもしれません。活用する実験データに応じて多様な予測に適用できるポテンシャルがあり、大変興味深い手法です。