【タンパク質生成モデル】最新の生成モデルフレームワーク Bayesian Flow Networks を活用したタンパク質生成手法を紹介!

論文タイトル

Protein sequence modelling with Bayesian flow networks

出典

Protein sequence modelling with Bayesian flow networks - Nature Communications
Bayesian Flow Networks generate diverse, novel, and coherent protein sequences, surpassing prior unconditional generation methods. They also permit flexible con...

要旨

Bayesian Flow Networks を活用したタンパク質配列生成モデル ProtBFN を紹介した論文です。

解説など

新しいアミノ酸配列生成モデルの紹介です。既存の生成モデルには以下のような特徴と課題があります。

  • BERTモデル:生成に不向きでエンベディングを下流タスクで活用する用途が主流
  • 自己回帰GPTモデル:時系列的なデータの取り扱いにより、高次構造を考慮した生成が困難
  • 拡散生成モデル:アミノ酸配列のような離散値の生成が困難

これらに対して筆者らが着目したのは、Bayesian Flow Networks (BFNs) という新しいアプローチです。これは拡散モデルのように、高次な特徴を適切に解釈しつつ、アミノ酸配列を生成できる手法です。これをタンパク質配列の生成モデルのアーキテクチャに採用し、既存の生成モデルと性能の比較をしています。

筆者らは、訓練データに UniProtCC のデータを利用し、650M のパラメータを有するモデル ProtBFN を構築しました。ProtBFN は、以下のような幅広い観点から、天然(訓練データ)のタンパク質分布と同様の分布のタンパク質を生成できることが示されています。

  • sequence distribution
    • amino acid distribution
    • protein length
    • sequence identitiy
  • structural distribution
    • netSurfP-3.0 (2次構造、relative solvent accessibility)
    • ESMFold pLDDT
    • TM score
    • sequence structure alignment programme (SSAP) score
    • CATH classification
    • Merizo (domain)

ProtBFN と比較する既存モデルとしては、ProtGPT2 と EvoDiff を利用しており、天然配列との分布は ProtBFN の方が近い様子がうかがえます。ProtGPT2 と EvoDiff はモデルの訓練データとしてUniRef50 を使用しているので、UniProtCC との違いが成績に反映されている可能性も否定できません。

筆者らはさらに、ProtBFN を OAS のデータセットでファインチューニングすることで抗体特化の生成モデル AbBFN を構築しました。学習は重鎖の可変領域のみを利用していて、AbBFN では VH の配列を生成することができます。AbBFN を inpainting タスクに活用すると、既知のモデルである AntiBERTy や AbLang2 に比べて、amino acid recovery rate (AAR) の高い FR 配列を生成できることが示されました。一方で CDR、特に HCDR3 では既存の2モデルに比べて AAR が低い結果でした。もともと配列多様性の高い領域ですので、AAR だけでこれ以上の性能比較を議論するのは難しいでしょう。

コードはこちらから。

GitHub - instadeepai/protein-sequence-bfn: Supporting code for our paper "Protein Sequence Modelling with Bayesian Flow Networks"
Supporting code for our paper "Protein Sequence Modelling with Bayesian Flow Networks" - instadeepai/protein-sequence-bfn