論文タイトル
Biophysics-based protein language models for protein engineering
出典
要旨
生物物理学的な指標を活用した新しいタンパク質言語モデル (METL) を開発しています。
解説など
本論文では、新しいタンパク質言語モデルを紹介しています。既知の ESM や ProtGPT2 は進化情報を活用した代表的なタンパク質言語モデルですが、こちらの論文で紹介されているモデルでは、学習データに、
- インシリコでデザインされた配列変異体モデルの情報
- 生物物理化学的な情報
を積極的に活用していることが特徴です。このモデルを、Mutational Effect Transfer Learning (METL) と呼んでいます。筆者らは、多様なタンパク質に対して適応できる METL-Global と、単一のタンパク質に対して最適化された METL-Local の 2 種のモデルを構築しました。
まず初めに、学習データを生成するために、標的とするタンパク質の配列バリアントを Rosetta でモデリングしています。METL-Local の場合は、標的タンパク質に最大5つの変異を含む 2,000 万個の変異体モデルを生成、METL-Global では、148 個のタンパク質を選抜し各々に対して 200,000 個の配列変異体を生成しています。それぞれの Rosetta モデルに対して、分子表面積、溶媒和エネルギー、ファンデルワールス相互作用、水素結合などの 55 種類の生物物理学的属性値を算出して学習データに用いています。次に事前学習として、タンパク質配列の内部表現を獲得するために、トランスフォーマーエンコーダーを構築します。最後に、実験的なデータにもとづいて、このエンコーダーモデルをファインチューニングするという流れです。
構築されたモデルは、下記の既存のモデルと比較してその性能評価がなされています。
- 線形回帰
- Rosetta
- EVE (evolutionary model of variant effect)
- Linear-EVE
- ESM-2
結果として、METL はその他のモデルに比べて、少ないファインチューニング用実験データで、高い予測精度を示していることが分かります。METL とともに、EVE も ESM-2 に比べて高い相関係数を示しており、この手法の詳細にも興味が湧きます。METL は ESM-2 などと比べると、限られたタンパク質種から、密な特定の配列空間を学習していることから、機能予測との親和性が強いのかもしれません。活用する実験データに応じて多様な予測に適用できるポテンシャルがあり、大変興味深い手法です。