論文タイトル
Rapid protein evolution by few-shot learning with a protein language model
出典

要旨
タンパク質言語モデルと Active learning を組み合わせた活性増強改変を探索する手法 EVOLVEpro を紹介した論文です。
解説など
タンパク質の活性増強改変をインシリコでスクリーニングする手法の紹介です。これまで本目的において、大規模タンパク質言語モデル(PLMs)や、Active learning を活用した手法が公開されてきました。これらの手法の問題点として、前者は進化情報を活用するせいで新しいコンテクストの生成に制約があること、後者はデータ取得コストの高さが課題として認識されていました。
筆者らは、PLMs と Active learning を組み合わせたアンサンブル法で、低コストかつ高成功率の変異探索手法を開発しています。この手法の名称は “EVOLVEpro” です。
12 種の deep mutagenesis scanning データセットを用いて、モデルの性能を評価し、グリッドサーチにより、以下のパラメータの最適化をおこなっています。
- 初回ラウンドの変異体選択
- 活性を学習する回帰モデル
- 次ラウンドの変異体選択に利用するアクティブラーニング
- 実測データのデータプロセシング
- PLM
この結果から、初回ラウンドの変異体選択はランダム法を、活性値を学習する回帰モデルにはランダムフォレストを採用しました。PLMには、
- ESM-2 15B
- ProtT5
- Unirep
- proteinBERT
- one-hot encoded
などが検証されましたが、ESM-2(15B) が最も性能が高いことが示され選択されています。
事前学習モデルのみでは160ラウンドの分子進化で達成できるデザイン成功率が、少数データを利用したアクティブラーニングにより、5ラウンドで同等の成績まで達成することができたことから、この手法の相乗効果が証明されています。
本論文では、以下のタンパク質に対して、EVOLVEpro を適用した実施例を紹介しています。
- COVID antibody(REGN10987)
- CRISPR nuclease
- Bxb1 integrase
- prime editor
- T7 RNA polymerase
いずれも、ベンチマーク手法に対してより効率的に活性増強改変が選択できていることが示されています。
抗体デザインを例にとると、鋳型と比較して2~515倍の活性を示す改変を見出すことができています。必ずしも変異体の活性値は、PLM の fitness スコアと相関しないことから、実測データによるモデル更新の効果があることが示唆されます。
これまで、大規模モデル言語モデルはパラメータのサイズに対してスケール効果を示すことが強く謳われてきましたが、現在は訓練データ数の限界から頭打ちになってきていることを主張する報告が散見されます。本アプローチが、デザイン手法の進歩に貢献してくれることを期待したいです。
実装コードはこちらです。