最新タンパク質言語モデル METL の正体

論文タイトル

Biophysics-based protein language models for protein engineering

出典

Just a moment...

要旨

生物物理学的な指標を活用した新しいタンパク質言語モデル (METL) を開発しています。

解説など

本論文では、新しいタンパク質言語モデルを紹介しています。既知の ESM や ProtGPT2 は進化情報を活用した代表的なタンパク質言語モデルですが、こちらの論文で紹介されているモデルでは、学習データに、

  • インシリコでデザインされた配列変異体モデルの情報
  • 生物物理化学的な情報

を積極的に活用していることが特徴です。このモデルを、Mutational Effect Transfer Learning (METL) と呼んでいます。筆者らは、多様なタンパク質に対して適応できる METL-Global と、単一のタンパク質に対して最適化された METL-Local の 2 種のモデルを構築しました。

まず初めに、学習データを生成するために、標的とするタンパク質の配列バリアントを Rosetta でモデリングしています。METL-Local の場合は、標的タンパク質に最大5つの変異を含む 2,000 万個の変異体モデルを生成、METL-Global では、148 個のタンパク質を選抜し各々に対して 200,000 個の配列変異体を生成しています。それぞれの Rosetta モデルに対して、分子表面積、溶媒和エネルギー、ファンデルワールス相互作用、水素結合などの 55 種類の生物物理学的属性値を算出して学習データに用いています。次に事前学習として、タンパク質配列の内部表現を獲得するために、トランスフォーマーエンコーダーを構築します。最後に、実験的なデータにもとづいて、このエンコーダーモデルをファインチューニングするという流れです。

構築されたモデルは、下記の既存のモデルと比較してその性能評価がなされています。

  • 線形回帰
  • Rosetta
  • EVE (evolutionary model of variant effect)
  • Linear-EVE
  • ESM-2

結果として、METL はその他のモデルに比べて、少ないファインチューニング用実験データで、高い予測精度を示していることが分かります。METL とともに、EVE も ESM-2 に比べて高い相関係数を示しており、この手法の詳細にも興味が湧きます。METL は ESM-2 などと比べると、限られたタンパク質種から、密な特定の配列空間を学習していることから、機能予測との親和性が強いのかもしれません。活用する実験データに応じて多様な予測に適用できるポテンシャルがあり、大変興味深い手法です。