各種配列設計手法を徹底比較!(2)

論文タイトル

PDBench: Evaluating Computational Methods for Protein Sequence Design

出典

PDBench: Evaluating Computational Methods for Protein Sequence Design
Proteins perform critical processes in all living systems: converting solar energy into chemical energy, replicating DNA, as the basis of highly performant mate...

要旨

大規模なベンチマークデータを用いて、配列デザイン手法の性能を比較した論文です。

解説など

先日のブログに引き続いて、配列デザインモデルのベンチマークデータの紹介です。

先日紹介した論文に比べて、公開時期が早く、評価されたモデルは比較的古いものが多いです。

評価用のベンチマーク天然構造データを用意し、各構造が配列設計モデルでデザインした骨格構造とどれくらい近いかを統計的に評価しています。データセットは、40のタンパク質のアーキテクチャ、4つのフォールドクラス(α/β/α-β/special )の595個のタンパク質構造から構成されています。resolutionは最大で3Å、配列間のidentityは90%以下になるように設計されたデータセットです。

本論文で評価されている配列デザイン手法は、以下のとおりです。

  • Physics-based
    • EvoEF2
    • Rosetta
  • Deep Learning-based
    • ProDCoNN (CNN)
    • DenseCPD (CNN)
    • ProteinSolver (GNN)
  • Novel models
    • TIMED (CNN)
    • GX (GNN + GNN-CNN Hybrid)
ベンチマーク結果
  • ProteinSolverは最も性能が悪く、DenseCPDが優れている
  • RosettaはEvoEF2よりも優れている
  • macro recallと入力データのresolutionは相関している
  • β-richの構造は、他のスキャフォールドに比べてRMSDの低い構造をデザインできている

ベンチマークデータと、評価用のスクリプトはこちらから。

GitHub - wells-wood-research/PDBench: PDBench is a dataset and software package for evaluating fixed-backbone sequence design algorithms.
PDBench is a dataset and software package for evaluating fixed-backbone sequence design algorithms. - wells-wood-research/PDBench