【タンパク質デザイン】拡散モデルを活用した最新 inverse folding model, “MapDiff” を紹介

論文タイトル

Mask-prior-guided denoising diffusion improves inverse protein folding

出典

Mask-prior-guided denoising diffusion improves inverse protein folding - Nature Machine Intelligence
Bai and colleagues present MapDiff, a discrete diffusion-based framework for generating amino acid sequences conditioned on a target protein structure, with str...

要旨

逆タンパク質フォールディング(Inverse Protein Folding, IPF)を目的とする新しい生成モデルを提案した論文です。

解説など

これまでの inverse folding model には下記のような課題がありました。

  • 物理ベース手法は計算コストが高く精度も限定的。
  • 深層学習は進歩してきたが、特に構造の不確実性が高い領域(例えば、無秩序領域)の予測は困難。
  • 既存モデルは、逐次(オートレグレッシブ)生成が多く、誤差が蓄積しやすい。

構造予測や生成の分野では、構造情報と残基間相互作用を組み合わせる手法が優れた成績を収めているため、これを inverse folding model にも採用して、より高精度・高多様性なアミノ酸配列を生成したのが本研究です。

提案手法:MapDiff

概要:MapDiffは、マスク先行学習(mask-prior pretraining)を用いた離散拡散生成モデル。
  1. 離散拡散モデル
    • 従来の連続空間(座標生成)ではなく、アミノ酸配列を直接生成。
    • データを時間ステップごとに「ノイズ化→復元」することで学習。
  2. マスク先行学習
    • 構造+部分配列情報を用いて「マスクした残基を復元」する事前学習を行い、構造と配列の関係を学習。
  3. デノイジングネットワーク
    • EGNN(Equivariant Graph Neural Network)ベース。
    • 3つの操作で予測を洗練:
      • 構造条件付き予測(EGNN)
      • エントロピーによる不確実性残基のマスキング
      • 事前学習済みネットでのマスク部分再推定
  4. 効率化・不確実性推定
    • DDIM(拡散過程をスキップして高速化)
    • Monte Carlo Dropout(複数推論で不確実性推定)
評価と結果

ベンチマークデータセット

  • CATH 4.2 / 4.3(トップロジー分類ベース)
  • TS50、PDB2022(汎化評価)
指標
  • Perplexity(予測の不確実性)
  • Recovery Rate(正確に再現された残基の割合)
  • NSSR(類似残基の復元率、BLOSUMスコア基準)
  • Foldability(AlphaFold2で再フォールドした構造の近さ)
主な成果
  • CATH 4.2/4.3で最高の配列復元率(61%前後)を達成
    • 従来最先端より7%程度高い
  • 短いタンパク質でも性能低下しない安定性
  • AlphaFold2 再予測構造でも低RMSD
  • 特に無秩序領域・疎水性残基の予測で顕著な改善

コードはこちらに公開されています。

GitHub - peizhenbai/MapDiff: Implementation of MapDiff: "Mask-prior-guided denoising diffusion improves inverse protein folding" in PyTorch
Implementation of MapDiff: "Mask-prior-guided denoising diffusion improves inverse protein folding" in PyTorch - peizhenbai/MapDiff