論文タイトル
Accelerating protein engineering with fitness landscape modeling and reinforcement learning
出典
要旨
タンパク質の変異体の効果を予測する手法 μFormer を紹介した論文です。
解説など
Microsoft の AI チームからの報告です。筆者らはタンパク質の変異体の効果を予測する手法を開発しました。近年タンパク質言語モデルを用いた変異体予測手法が数多く開発されていますが、zero-shot での予測精度にはいまだ限界があるのが現状です。
そこで筆者らは、タンパク質大規模事前学習言語モデル、ファインチューニング、強化学習を組み合わせた予測手法 μFormerを提案しました。概要としては大規模なタンパク質配列に基づく事前学習モデルで対象のアミノ酸配列に対するエンベディングを取得し、変異効果データを用いて教師ありファインチューニングで訓練されたスコアリングモジュールを通じて、変異効果を予測します。有望な配列提案のためのサンプリングには強化学習を活用します。
事前学習モデルは UniRef50 から取得した3,000万配列のデータを活用して、筆者ら独自に構築しています。
スコアリングモジュールには、以下の3つのスコアリング器が備わっており、その配列を残基レベルから配列レベルまで階層的に特徴を抽出しています。
- single-residue validities
- motif-level patterns
- sequence-level semantics
筆者らは μFormer を次の複数の既存手法と比較する形でその性能を評価しています。
- ESM
- Ridge
- ECNet
- CNN
- EVE
- TranceptionL
- EVmutation
- DeepSequence
- ESM-1v
- Site-independent
検証用のデータセットは、ProteinGym が中心です。
いずれのデータセットにおいても、既存の手法に比べて μFormer が実測と高い相関を示しています。
特徴的な点として、
- 訓練のデータサイズに予測成績が大きく依存しないこと(少数のサンプルで良い成績がだせること)
- エピスタティックな変異(相乗的に影響する組み合わせ変異)を予測できること
- insertion や deletion 変異に対応できること
などが挙げられます。
強化学習を用いて有望変異探索タスクに適用するとランダムに変異を導入したときの良改変予測割合が12%であったのに対して、μFormerでは23.5%まで改善しています。
2024年9月に本手法のコードも公開されました。ぜひお手に取ってお試しください。