論文タイトル
Residue conservation and solvent accessibility are (almost) all you need for predicting mutational effects in proteins
出典
Just a moment...
要旨
変異によるタンパク質の性質変化予測を、残基保存性と溶媒露出度(RSA)のみから高い精度を実現できる、シンプルで解釈しやすいモデル「RSALOR」を提案・検証した論文です。
解説など
タンパク質の変異効果を予測する深層学習モデルは多々ありますが、本論文では進化情報と、構造情報から利用できる溶媒露出度(RSA)だけから予測する手法を提案しています。
- 低計算コスト
- 高解釈性
- パラメータ最適化が不要
- 対象とするタンパク質スキャフォールドに応じた過学習の影響を受けにくい
といった点が強みの手法です。
筆者らが提案する RSALOR は、以下の2つの情報を統合した非常にシンプルなスコアです。
- 進化情報(LOR: Log-Odds Ratio)
- 変異位置の MSA(multiple sequence alignment)から、野生型(wt)と変異型(mt)の残基頻度を用いて計算
- 特定の変異がどれくらい進化的に不自然かを表す
- 高頻度な野生型残基から低頻度な変異残基への変化では、LOR が大きくなる
- 低頻度な野生型から高頻度な変異先であれば、LOR は小さく負の値になることもある
- 構造情報(RSA: Relative Solvent Accessibility)
- 変異位置の溶媒露出度(0:埋もれている、100%:完全に露出)を利用
- RSAが高い部位の変異は影響が小さく、RSAが低い(=タンパク質のコア)変異は影響が大きいという既知の事実を反映
◉ 最終スコア:RSALOR → 単純な掛け算のみで構成され、パラメータの学習は不要。
モデルは、ProteinGym のデータセットで評価され、27の最新手法の中で各指標に対し2~3位目に位置する成績とのことです。
RSAを考慮することで予測性能は顕著に向上することから、溶媒露出度の重要性を推察できます。
本手法はエピスタシスを全く考慮していないため、抗原結合において正確性にかける可能性があります。