論文タイトル
Preference optimization of protein language models as a multi-objective binder design paradigm
出典
要旨
Direct Preference Optimization (DPO) を活用して、タンパク質のバインダーデザインを最適化する手法です。
解説など
本記事では、タンパク質の最適化手法について紹介します。バインダーデザインを目的に複数パラメータを同時に最適化するための計算アルゴリズムの新法です。
近年、様々な最適化アルゴリズムが開発されており、既報の最適化戦略としては、
- Reinforcement Learning from Human Feedback (RLHF)
- Direct Preference Optimization (DPO)
といった手法が知られています。
本論文では、この中のDPOをタンパク質の言語モデルに適用することで、デザインしたバインダーの最適化を試みています。具体的には、以下の手順でデザインの最適化を実行する手法を紹介しています。
- 事前学習モデルの準備
- Supervised Fine-Tuning (SFT)
- DPOによる複数目的指標に基づくデザインの最適化
事前学習モデルとして活用する既存のタンパク質言語モデルとしては、下記のような代表的なモデルが存在しますが、
- ESM2: BERT-style encoder transformer モデル、text infilling
- ProtGPT2: GPT-style decoder transformer モデル, text generation
- ProtT5: encoder-decoder transformer モデル, machine translation
本論文では、このうち ProtGPT2 を事前学習モデルとして使用しています。
つぎに、ProtGPT2 を Supervised Fine-Tuning するステップです。ここでは OpenAI の chatML template を使用して、対象となるバインダーと標的抗原に関する情報をプロンプトに渡し、そこから受け取るレスポンスから、モデルのチューニングをおこなっています。モデルは QLoRA でチューニングされています。
最後に DPO で複数目的指標に基づくデザインの最適化を行います。ここではファインチューニングされたモデルの KL ダイバージェンスの最大化を目指して、デザインの最適化が試みられます。本論文では実証事例として、抗原結合(親和性と標的抗原に対する特異性)と同時に、pI の最適化ができるか検証しています。
既存の手法との比較データなどは公開されていませんが、perplexity の低い配列が生成されていることは本文中から確認できます。