【タンパク質デザイン】変異効果を進化情報と溶媒露出度だけから予測する方法

Residue conservation and solvent accessibility are (almost) all you need for predicting mutational effects in proteins

変異によるタンパク質の性質変化予測を、残基保存性と溶媒露出度（RSA）のみから高い精度を実現できる、シンプルで解釈しやすいモデル「RSALOR」を提案・検証した論文です。

タンパク質の変異効果を予測する深層学習モデルは多々ありますが、本論文では進化情報と、構造情報から利用できる溶媒露出度（RSA）だけから予測する手法を提案しています。

といった点が強みの手法です。

筆者らが提案する RSALOR は、以下の2つの情報を統合した非常にシンプルなスコアです。

進化情報（LOR: Log-Odds Ratio）
- 変異位置の MSA（multiple sequence alignment）から、野生型（wt）と変異型（mt）の残基頻度を用いて計算
- 特定の変異がどれくらい進化的に不自然かを表す
  - 高頻度な野生型残基から低頻度な変異残基への変化では、LOR が大きくなる
  - 低頻度な野生型から高頻度な変異先であれば、LOR は小さく負の値になることもある
構造情報（RSA: Relative Solvent Accessibility）
- 変異位置の溶媒露出度（0:埋もれている、100%:完全に露出）を利用
- RSAが高い部位の変異は影響が小さく、RSAが低い（=タンパク質のコア）変異は影響が大きいという既知の事実を反映