論文タイトル
Integrating protein language models and automatic biofoundry for enhanced protein evolution
出典

要旨
タンパク質言語モデルを用いた DBTL サイクルによるタンパク質改変探索手法を紹介した論文です。
解説など
近年はタンパク質エンジニアリングににおける DBTL サイクルの重要性が謳われるようになり、最適化難度の高い酵素エンジニアリングを中心に様々な手法が考案されてきました。その中でも昨今実施例が増えている ML-assisted directed evolution はベイズ最適化を用いたアプローチが主流です。
このような手法は定められた探索空間から最適な配列を逐次的な評価とともに見出していくことは得意ですが、既存の実施例における改変探索の範囲はいずれも4,5残基のアミノ酸にとどまり、それを事前情報から定義している状況が多く、対象のタンパク質全体からどの残基を改変するべきかを見出す方法までフォローした手法ではありませんでした。
筆者らは配列最適化の問題を、標的残基の同定と最適な配列組み合わせ探索の2つに分けて、問題解決を試みました。また本論文では、デザイン手法だけでなく、DBTL サイクルを効率的に回すための実験プラットフォームに関する言及も多く、ラボラトリーオートメーションの観点からも参考になる内容です。
デザイン手法は、
- Module I: タンパク質言語モデル (PLM) を活用した改変標的残基の同定
- Module II: 配列活性相関の回帰予測により、最適な配列組み合わせ探索
の2つに分かれます。
Module I では、ESM-2 (ESM2_t33_650-M_UR50D) を用いて、Masked language modeling により 全単改変の likelihood を算出し有望な単改変を提案します。
Module II では、そのステップはさらに配列のサンプリングと fitness value の予測に分解されます。サンプリングには、Information Transport Complexity (ITC) というアルゴリズムを用いて、PLM の情報から高い “probability” かつ高い “diversity” を持つ配列群を提案します。提案された配列は実験的に評価され、得られたデータは PLM による配列エンコーディングとともに、MLP による配列活性相関予測に供されます。主に各ラウンド 96 個以下の配列を評価し、逐次的に設計を繰り返していくワークフローです。
筆者らはこのアプローチを、酵素のエンジニアリングに適用した事例を紹介しています。random selection の改変体設計より優れているのはもちろんのこと、Module II 単独では重要な改変が見いだせないのに対し、Module I を組み合わせることで探索範囲を広げ、優れた改変を見出すことができることを示しています。
コードはこちらから。