論文タイトル
Improving Protein Sequence Design through Designability Preference Optimization
出典
要旨
タンパク質配列設計における「設計可能性(designability)」を直接最適化する新手法を提案しています。
解説など
既存の配列設計モデル(本文ではProtein Sequence Design model, PSDモデルと表現されています)は、sequence recovery を目的に学習されています。しかし、配列再現率が高くても、それが実際にターゲット構造へ折りたたまれる(designable)ことは保証されません。
筆者らは既存の PSD モデルに対して、DPO を活用して設計可能性を指標に最適化することで、天然配列に類似しているだけでなく、設計可能性の高いモデルを構築しました。
DPO は、下記の記事でも紹介したモデルの最適化方法です。
本文では、既存の PSD モデルの1種である LigandMPNN に対して DPO を適用しています。
最適化の対象である designability の指標は AF2の pLDDT です。筆者らは PDB の結晶構造から、ProteinMPNN → AF2 の流れで pLDDT をラベル化したデータセットを使用して、LigandMPNN を最適化しました。
この手法のもう一つの特徴は、タンパク質の全長配列に対してではなく、個々のアミノ酸残基に対して最適化している点です。これを Residue-level Designability Preference Optimization (ResiDPO) と呼んでいます。これにより改善が必要な領域のみ再設計し、良好な部位は適切に保持することができることを期待しています。
筆者らは本手法により最適化された配列設計モデルを、酵素設計とバインダー設計に適応して、既存の LigandMPNN と性能の比較を行いました。本手法により、配列設計の成功率(pLDDT>80, inter-chain PAE<10, Cα RMSD<1Å)が、既存のモデルに比べて2~3倍改善していることが分かります。

  
  
  
  

