【タンパク質の変異体予測】メタ学習を利用した言語モデルのチューニング手法を紹介!

論文タイトル

Enhancing efficiency of protein language models with minimal wet-lab data through few-shot learning

出典

Enhancing efficiency of protein language models with minimal wet-lab data through few-shot learning - Nature Communications
In this work, the authors proposed a few-shot learning approach that can efficiently optimize protein language models for fitness prediction. It combines the te...

要旨

メタ学習を活用して、タンパク質言語モデルを少量のデータセットで効率的にファインチューニングする手法を紹介した論文です。

用語

  • LTR: learning to rank
  • MTL: meta-transfer learning
  • MAML: model-agonistic meta-learning

解説など

タンパク質大規模言語モデルを少数のデータでファインチューニングすることで、特定のタスクの予測精度の改善を試みたレポートです。大規模な事前学習モデルが一般に公開されるにつれ、限られたリソースで効率的にファインチューニングする手法のニーズは非常に増しており、LoRA など、それを推進するための実用的な方法論も多く開発されています。

そのような中で筆者らは、メタ学習を活用してタンパク質言語モデルのチューニングを試みています。メタ学習とは、データそのものではなく、関連する他のデータの「学習方法」を学習するアプローチです。モデルに依存せずに、少ないデータで学習が可能であることが特徴です。

MAML(Model-Agnostic Meta-Learning)徹底解説:基本から応用、未来の展望まで | Reinforz Insight
近年、AI技術の進展においてメタラーニングが注目されています。特に、MAML(Model-Agnostic Meta-Learning)は、その独自のアプローチで多くの研究者やエンジニアからの関心を集めています。しかし、MAMLの具体的なメ

筆者らはメタ学習の代表的なアルゴリズムである MAML (model-agonistic meta-learning) をタンパク質言語モデルに適用しています。

学習のプロセスは、以下の手順で進んでいきます。

  • メタ学習に供する補助データセットの構築
  • 補助データセットを用いてPLMをメタ学習
  • 対象タスクのデータセットを用いてPLMを転移学習

筆者らは、事前に用意できる補助データセットとして、タンパク質の変異体の活性データを保持した ProteinGym を利用しています。また PLM としては、ESM-1v, ESM2, SaProt を活用しています。

Ablation study の結果から、MTL が有効に機能していることが確認でき、変異体の影響予測では数十個のデータサイズの学習により、十分な予測精度の向上が確認できます。

コードはこちらに公開されています。

GitHub - ai4protein/Pro-FSFP: Pro-FSFP: Few-Shot Protein Fitness Prediction
Pro-FSFP: Few-Shot Protein Fitness Prediction. Contribute to ai4protein/Pro-FSFP development by creating an account on GitHub.