【変異体予測】マイクロソフトが開発した fitness landscape 予測手法 μFormer の紹介

論文タイトル

Accelerating protein engineering with fitness landscape modeling and reinforcement learning

出典

要旨

タンパク質の変異体の効果を予測する手法 μFormer を紹介した論文です。

解説など

Microsoft の AI チームからの報告です。筆者らはタンパク質の変異体の効果を予測する手法を開発しました。近年タンパク質言語モデルを用いた変異体予測手法が数多く開発されていますが、zero-shot での予測精度にはいまだ限界があるのが現状です。

そこで筆者らは、タンパク質大規模事前学習言語モデル、ファインチューニング、強化学習を組み合わせた予測手法 μFormerを提案しました。概要としては大規模なタンパク質配列に基づく事前学習モデルで対象のアミノ酸配列に対するエンベディングを取得し、変異効果データを用いて教師ありファインチューニングで訓練されたスコアリングモジュールを通じて、変異効果を予測します。有望な配列提案のためのサンプリングには強化学習を活用します。

事前学習モデルは UniRef50 から取得した3,000万配列のデータを活用して、筆者ら独自に構築しています。

スコアリングモジュールには、以下の３つのスコアリング器が備わっており、その配列を残基レベルから配列レベルまで階層的に特徴を抽出しています。