論文タイトル
Simulating 500 million years of evolution with a language model
出典
https://evolutionaryscale-public.s3.us-east-2.amazonaws.com/research/esm3.pdf要旨
代表的なタンパク質言語モデルの一つである ESM の最新バージョン ESM3 についての報告です。
解説など
言語モデルの表現学習はスケールの影響を強く受けることが知られており、ESM3 もそれに逆らわず大規模なモデルとなっています。具体的には、2.78 billion のタンパク質、771 billion のトークン数を学習し、98 billion のパラメータ数を誇るモデルとなっています。このモデルサイズは、GPT3 のスケールに匹敵する大きさです。
学習に用いられるデータは、タンパク質のアミノ酸配列だけではなく、以下の多様な情報を個々に学習しています。
- Sequence
- Structure tokens
- Secondary structure 8 (SS8)
- Solvent accessible surface area (SASA)
- Function keywords
- Residue annotations
訓練情報について補足しますと、SS8 はタンパク質の 2 次構造を残基単位でラベルした情報で、以下の8種の2次構造に分類されます。
- H: α-helix
- B: β-bridge
- E: β-strand
- G: 310helix
- I: π-helix
- T: Turn
- S; Bend
- L: Coil
また Function keywords は、InterPro データベースに基づくタンパク質の機能にかかわる情報で、対象のタンパク質のファミリーやドメイン、機能に重要なアミノ酸サイトの情報を持ちます。
ESM3 は、タンパク質構造をデザインするタスクをこなすこともでき、その設計性能を下記の指標で評価しています。基本的にプロンプト入力とモデルから生成された構造との一致度を計算した指標です。
- constrained site RMSD (cRMSD)
- SS3 accuracy(three-class secondary structure)
- SASA spearman ρ
- keyword recovery
それぞれの指標は高い値を示しており、またESMFold の pTM とも相関性があります。
プロンプトには、アミノ酸配列だけではなく、キーワードや、モチーフの構造座標を入力することができ、またそれらを複数組み合わせることもできます。例えば、「Immunoglobulin」キーワードと、結合界面の座標を入力すれば、相当する結合モチーフをもつイムノグロブリンフォールドを生成することができます。
筆者らは、ESM3 を用いて人工的な GFP を設計することにも成功しています。具体的には発色団の構造モチーフのみを入力することで、その他周囲のスキャフォールドを生成することを試みており、しっかりバレル構造をもった構造が生成されています。
コードはこちらです。