論文タイトル
Enhancing efficiency of protein language models with minimal wet-lab data through few-shot learning
出典

要旨
メタ学習を活用して、タンパク質言語モデルを少量のデータセットで効率的にファインチューニングする手法を紹介した論文です。
用語
- LTR: learning to rank
- MTL: meta-transfer learning
- MAML: model-agonistic meta-learning
解説など
タンパク質大規模言語モデルを少数のデータでファインチューニングすることで、特定のタスクの予測精度の改善を試みたレポートです。大規模な事前学習モデルが一般に公開されるにつれ、限られたリソースで効率的にファインチューニングする手法のニーズは非常に増しており、LoRA など、それを推進するための実用的な方法論も多く開発されています。
そのような中で筆者らは、メタ学習を活用してタンパク質言語モデルのチューニングを試みています。メタ学習とは、データそのものではなく、関連する他のデータの「学習方法」を学習するアプローチです。モデルに依存せずに、少ないデータで学習が可能であることが特徴です。

筆者らはメタ学習の代表的なアルゴリズムである MAML (model-agonistic meta-learning) をタンパク質言語モデルに適用しています。
学習のプロセスは、以下の手順で進んでいきます。
- メタ学習に供する補助データセットの構築
- 補助データセットを用いてPLMをメタ学習
- 対象タスクのデータセットを用いてPLMを転移学習
筆者らは、事前に用意できる補助データセットとして、タンパク質の変異体の活性データを保持した ProteinGym を利用しています。また PLM としては、ESM-1v, ESM2, SaProt を活用しています。
Ablation study の結果から、MTL が有効に機能していることが確認でき、変異体の影響予測では数十個のデータサイズの学習により、十分な予測精度の向上が確認できます。
コードはこちらに公開されています。