論文タイトル
Design Proteins Using Large Language Models: Enhancements and Comparative Analyses
出典
要旨
汎用的に利用される自然言語モデルを、タンパク質モデリング目的にチューニングしたモデルを紹介した論文です。
解説など
筆者らが検証に用いているモデルは主にオープンソースで活用できる中規模の自然言語(タンパク質ではない)モデルです。具体的には以下のモデルになります。
- Mistral-7B (MistralAI)
- Llama-2-7B (Meta)
- Llama-3-8B (Meta)
- gemma-7B (Google)
これらはいずれも7~8Bのパラメータ数を有しています。これは汎用的な自然言語モデルとしては中規模ですが、ProGen2-xlarge で 6.4B、ESM2 (esm2_t48-15B_UR50D) で 15B であることを考えると、タンパク質言語モデルとしての規模としては大きいモデルであると言えます。
筆者らは、これらのモデルを UniRef50 に登録された 42,000 のタンパク質配列で再訓練して、タンパク質言語モデルとして性能を評価しました。トークナイザーは Byte-Pair Encoding (BPE) を活用してリファイニングし、モデルは先述のデータセットでファインチューニングしています。
彼らはモデルから無条件に生成された 70-140 残基のタンパク質 250 種を、下記の指標を用いて評価しています。
- pLDDT: per-residue confidence score (AlphaFold)
- Inter RMSD: (PyMOL)
- Intra RMSD: (Foldseek)
- TM-score: topological similarity to known protein configurations (FoldSeek)
- REU: (Rosetta-Relax)
比較対象となるデザイン手法は、既報のタンパク質言語モデルです。
- PROLLAMA
- PROTGPT2
- PROGEN (small, medium, large, xlarge)
結果として、pLDDT, RMSD, TM-score の観点からは、いずれのタンパク質言語モデルをも抑えて P-Mistral が優れた成績を示しています。微差であるため使い方は難しいですが、言語モデルの汎用性とファインチューニングの効用が示された結果であるといえます。