【タンパク質デザイン】GPT と ESM モデルを同時に訓練した生成モデルで抗菌ペプチドをデザイン

論文タイトル

Improving functional protein generation via foundation model-derived latent space likelihood optimization

出典

Improving functional protein generation via foundation model-derived latent space likelihood optimization
A variety of deep generative models have been adopted to perform de novo functional protein generation. Compared to 3D protein design, sequence-based generation...

要旨

抗菌ペプチドやデヒドロゲナーゼなどの機能を持つタンパク質を生成するモデルを、GPT モデルのファインチューニングで構築した研究成果を示した論文です。

解説など

筆者らの手法の特徴はモデルのアーキテクチャにあります。

アミノ酸配列の配列空間と、タンパク質言語モデルが学習した進化情報に富む潜在空間の両方から損失を計算して構築された生成モデルを活用しています。Figure 1c に概念図が示されていますのでご参照ください。

まず機能をもつアミノ酸配列を直接出力する生成モデルには、GPT モデルが使われています。本論文では ProGen2-large モデルが利用されており、これを対象の機能を持つ訓練配列でファインチューニングすることで、配列の出現頻度を学習します。

生成された配列は、タンパク質言語モデルによる潜在表現に変換され、この潜在空間に基づき policy gradient を用いてモデルが訓練されます。ここではタンパク質言語モデルとして ESM2 が利用されています。この過程は ESM から GPTモデルへの知識蒸留とみなすことができます。

本手法を以下の2つのタスクに適応しています。

  • antimicrobial peptide (AMP) の生成
  • malate dehydrogenase (MDH) の生成

生成した配列が既存のモデルに比べて高い確率で機能を持ち、かつ多様であることが示されています。一方でその既存のモデルからの改善幅は決して大きくないことと、実験検証に至っていない点は課題かと思いました。