論文タイトル
SurfPro: Functional Protein Design Based on Continuous Surface
出典
要旨
タンパク質の配列設計モデルである SurfPro の開発を紹介した論文です。
解説など
これまでにも、本ブログでさまざまな inverse folding model を紹介してきました。
本論文で紹介された inverse folding model である SurfPro の特徴は、タンパク質表面の幾何学形状だけでなく、その側鎖の物理化学的な性質を活用して学習している点にあります。タンパク質の機能はその相互作用界面に大きく影響を受けますので、これまでのように主鎖骨格の再現性に注力した配列設計ではなく、機能に重要な特徴に重きを置いているのが SurfPro の重要な点です。
これまでも MaSIF などタンパク質表面に着目したモデルはありましたが、SurfPro では、そのタンパク質表面の特徴をハンドクラフトに計算するのではなく、生成モデルを活用して、直接配列設計に応用しています。
配列設計の精度は、CATH4.2 のベンチマークデータを活用して、以下の既存モデルと比較評価されています。
- ProteinMPNN
- PiFold
- LM-DESIGN
perplexity と recovery rateで、SurfPro は上記のモデルに比べて優れた性能を示しています。
また、SurfProは、バインダーデザインと酵素デザインにも適用されています。元のモデルを、標的抗原に対する既知バインダーとの複合体構造でファインチューニングを行い、配列生成を行う流れです。
バインダーデザインにおける成功率の評価指標は、AlphaFold による pAE で、既知のポジティブバインダーの pAE より低い値を示すデザインの割合を計算しています。InsulinR, PDGFR, TGFb, H3, IL7Ra, TrkAに対するバインダーをデザインしたところ、上記のモデルに比べて pAE の低いデザインがきちんと生成されることが実証されています。
酵素デザインに関しても、評価指標が ESP スコアという酵素と基質の結合親和性を予測するモデルから算出されるスコアを使って、同様にワークすることが示されています。
コードはこちらから。