【PLM】タンパク質の変異体予測に、”few-shot fitness prediction” を活用するときのコツ

論文タイトル

Likelihood-based fine-tuning of protein language models for few-shot fitness prediction and design

出典

Likelihood-based fine-tuning of protein language models for few-shot fitness prediction and design
In order to correctly predict amino acid identities within natural proteins, protein language models (PLMs) must implicitly learn distributional constraints on ...

要旨

ランキングベースの損失関数でファインチューニングすることで、タンパク質言語モデルによる変異体予測成績を改善できることを示した論文です。

解説など

本日は、タンパク質の変異体予測手法の改善を試みた文献を紹介します。タンパク質言語モデルでは、一般に標的タンパク質に関連する少数の変異体データで、ファンダメンタルモデルをファインチューニングすることで、変異体の予測性能を上げることができることが知られています。筆者らは、モデルのファインチューニングの際に、回帰ベースではなく、ランキングに基づいて算出した損失関数を用いることで、性能が改善することを発見しました。

実際に回帰ベースの SOTA 手法として挙げられている ProteinNPT と比較して、単改変、複数改変どちらの変異体データでファインチューニングをしても、優れた性能を示すことを明らかにしています。

ベースのモデルには、ESM-1v、PoET、ProGen2 の3種が用いられています。ベースモデルの選択によっても若干挙動が異なるとのことです。具体的には、PoET の場合は、単改変、複数改変どちらともランキングベースの損失に基づく手法が優れていましたが、ESM-1v の場合は、複数改変ではその改善効果が確認できないとのことです。ESM は複数改変の特徴をとらえるのが苦手であるそうです。

このような改善効果は、ファインチューニングにたった128個のデータを活用しただけでも、確認できるとのことで、few-shot 予測の実戦での活用が非常に期待される結果となっています。