【タンパク質デザイン】DPO で最適化されたLigandMPNN で配列成功率を2倍に

論文タイトル

Improving Protein Sequence Design through Designability Preference Optimization

出典

Improving Protein Sequence Design through Designability Preference Optimization
Protein sequence design methods have demonstrated strong performance in sequence generation for de novo protein design. However, as the training objective was s...

要旨

タンパク質配列設計における「設計可能性(designability)」を直接最適化する新手法を提案しています。

解説など

既存の配列設計モデル(本文ではProtein Sequence Design model, PSDモデルと表現されています)は、sequence recovery を目的に学習されています。しかし、配列再現率が高くても、それが実際にターゲット構造へ折りたたまれる(designable)ことは保証されません。

筆者らは既存の PSD モデルに対して、DPO を活用して設計可能性を指標に最適化することで、天然配列に類似しているだけでなく、設計可能性の高いモデルを構築しました。

DPO は、下記の記事でも紹介したモデルの最適化方法です。

本文では、既存の PSD モデルの1種である LigandMPNN に対して DPO を適用しています。

最適化の対象である designability の指標は AF2の pLDDT です。筆者らは PDB の結晶構造から、ProteinMPNN → AF2 の流れで pLDDT をラベル化したデータセットを使用して、LigandMPNN を最適化しました。

この手法のもう一つの特徴は、タンパク質の全長配列に対してではなく、個々のアミノ酸残基に対して最適化している点です。これを Residue-level Designability Preference Optimization (ResiDPO) と呼んでいます。これにより改善が必要な領域のみ再設計し、良好な部位は適切に保持することができることを期待しています。

筆者らは本手法により最適化された配列設計モデルを、酵素設計とバインダー設計に適応して、既存の LigandMPNN と性能の比較を行いました。本手法により、配列設計の成功率(pLDDT>80, inter-chain PAE<10, Cα RMSD<1Å)が、既存のモデルに比べて2~3倍改善していることが分かります。