論文タイトル
Active learning-assisted directed evolution
出典

要旨
Active Learning を活用したタンパク質の分子進化手法を提案しています。
解説など
カリフォルニア工科大学からのレポートです。Active Learning とは機械学習モデルの性能を向上するために学習効果の高いデータを提案する手法です。タンパク質のエンジニアリングに Active Learning を適用することは、まだ探索していない改変を積極的に選びだして、不要なサンプル評価を防ぎながら改変データを取得することができることを意味しています。これまでにもいくつか Active Learning を活用した手法は提案されていましたが、この論文では Active Learning を活用して epistasis (複数改変による synergistic な効果)を積極的に利用した分子の生成を試みています。epistasis を効果的に検出するためのコツとして、初期に探索するライブラリーには combinatorial なデザインを用いています。
この論文では実施例として、Pyrobaculum arsenaticum(ParPgb) という酵素の活性や収量を改善することを試みています。酵素活性に関与する5つのアミノ酸残基を combinatorial にランダマイズさせたライブラリーを作成しました。
筆者らの手法では、このライブラリーからランダムに 216 クローンの分子特性を評価したのち、そのデータを活用して Round 1 で 90 クローン、Round 2 でさらに 90 クローンを評価しています。結果として site saturation mutagenesis から同定された改変の組み合わせで得られる最適化配列に比べて優れた活性を示す分子を設計することに成功しています。
プロセスにおける配列のエンベディング、モデル、獲得関数にはそれぞれ次のような手法を検討しています。
- エンベディング
- AAIndex
- Georgiev
- Onehot
- ESM2
- モデル
- Boosting Ensemble
- Gaussian Process (GP)
- DNN Ensemble
- Deep Lernel Learning (DKL)
- 獲得関数
- Greedy
- Upper Confidence Bound (UCB)
- Thompson Sampling (TS)
これらを比較した結果として、以下のような知見が得られています。
- Onehot や ESM2 のような高次元のエンベディングは、DNN Ensemble や DKLと相性が良い
- 逆に深層学習を活用していないモデルは、低次元の AAIndex や Georgiev のようなエンベディングが良い
したがって、ESM2 エンベディングでは GP モデルは機能せず、検証したどのエンコーディング手法に対しても広く成績が良かったのは、Boosting Ensemble や DNN Ensemble であったとのことです。
コードはこちら。