論文タイトル
Multi-indicator comparative evaluation for deep learning-based protein sequence design methods
出典
要旨
配列デザイン手法の性能をベンチマークした論文です。
解説など
種々の配列デザイン手法の精度を網羅的にベンチマークした論文です。
本ブログでもここ数日で、数多くの配列デザインの手法を紹介してきました。
これらを同じ土俵に並べて、有効性を評価したのが本日紹介する論文です。
手法を公開した論文でも示されているとおり、配列デザインの妥当性を評価する指標は慣例的に、配列の回収率や実験由来の既知構造情報からのRMSDのみで評価されることが多いです。それに対して、本論文では以下に示す複数の指標をもとに、体系的にその性能を評価していることが特徴です。
- Sequence recovery
- Calculation time
- RMSD
- Diversity
- SS score
- Nonpolar loss
ここでいう、SS score とは、2次構造予測の妥当性、Nonpolar lossは、非極性のアミノ酸を含む割合を反映した値です。最終的にこれらの指標を総合したランキング法を開発し、過去に開発された手法の性能を比較した結果を紹介しています。
筆者らが比較した手法は、以下に示す8つの手法です。
- Structured Transformer
- Protein Solver
- 3D CNN
- ABAC US-R
- ESM-1F1
- ProteinMPNN
- GPD
- PiFold
結果として、ProteinMPNNが最も総合的に優れた配列設計手法であることが示されています。筆者らはde novoタンパク質と一般的な単鎖タンパク質それぞれで設計を試みましたが結果は同じです。ProteinMPNNは特に、先の指標の中でもRMSDを指標に妥当な配列を設計する傾向にあるとのことです。
多くの配列設計法では、同一のアミノ酸が連続して繰り返される配列をデザインする傾向があります。この点における手法間の特徴も評価されています。ProteinMPNNやProteinSolverでは、Alaの反復配列が主流ですが、GPD, ESM-1F1, ABACUS-Rでは、Val, Glu, Lysの反復配列が高い頻度で出現していることが、解析結果からわかります。