タンパク質言語モデルの民主化:効率的なパラメータファインチューニング

論文タイトル

Democratizing Protein Language Models with Parameter-Efficient Fine-Tuning

出典

https://www.biorxiv.org/content/10.1101/2023.11.09.566187v1

要旨

タンパク質言語モデルに対するパラメータ効率的なファインチューニング手法を紹介した論文です。タンパク質-タンパク質相互作用(PPI)とホモオリゴマーの対称性予測において、従来のファインチューニングと同等またはそれ以上の性能を示しています。

解説など

タンパク質言語モデルのファインチューニング手法の紹介です。

ProGen2 や ESM2 に代表されるタンパク質言語モデルですが、モデルの改良が進むにつれてそのパラメーター数は非常に多くなっています。その数は、ProGen2 で 64 億、ESM2 で 150 億個ほどです。ここまでくるとモデルをファインチューニングするにも、非常に大きなコストがかかります。

このような課題を解決するために、近年 parameter-efficient fine-tuning (PEFT) という手法が開発されています。PEET に関する現在の最先端の方法論は、Hu らによって導入された low-rank adapters (LoRA) です。これは、2 つの低ランクのアダプター行列を、アテンションヘッドのクエリと重み行列に、並列に追加する方法です。このアプローチでは、従来の fine-tuning (FT) のパフォーマンスに達することはほとんどありませんが、必要なリソースは大幅に少なくなることが知られています。

筆者らは、この LoRA を使用して、タンパク質間相互作用 (PPI) の予測とホモオリゴマーの対称性の予測という 2 つの重要なタスクのための新しくタンパク質言語モデルをトレーニングしました。

結果として、ホモオリゴマーの対称性予測では、PEFT アプローチが、必要なメモリを削減して、使用するパラメーターを 3 桁少なくしながら、従来の微調整に匹敵するパフォーマンスを達成できることを示していました。PPI 予測タスクでは、PEFT モデルが従来の fine-tuning よりも優れており、使用するパラメーターが 2 桁少なくなっていることがわかりました。