【MSA】タンパク質の熱安定性と進化情報との関連性を探る

論文タイトル

Exploring evolution to enhance mutational stability prediction

出典

Exploring evolution to enhance mutational stability prediction
Determining the impact of mutations on the thermodynamic stability of proteins is essential for a wide series of applications such as rational protein design an...

要旨

タンパク質の熱安定性予測に、進化情報がどのように寄与するか検証した論文です。

解説など

近年様々なタンパク質の熱安定性予測手法が公開されています。そのほとんどの手法が AlphaFold などタンパク質構造を予測するモデルと同じく、進化情報を活用しています。進化情報の活用において、具体的には MSA を作ることになるわけですが、MSA の作成方法には様々な設定条件が関与し、MSA の作成の仕方によって予測性能も変わることが知られています。

筆者らは、MSA 作成の複数のパラメータを最適化し、タンパク質の熱安定性予測に最適な MSA 作成条件を探索しました。

具体的な方法論についてですが、まず MSA の作成には JackHMMER を利用しています。ここから複数の要素を調整して変異に対する熱安定性変化との相関が高くなる条件を探索しています。得られた結果を整理すると以下のとおりです。

  • MSA refinement のための iteration は2がベスト
  • データセットの種類 (UniRef90, UniRef100・・・) は重要ではない
  • E-value は10^-7がベスト
  • Neff (effective number of sequences) は高いほうが良い
  • MSA の深さは大きいほど良い
  • MSA の curation は重要ではない

筆者らは、以上の結果から、

「UniRef90 with two JackHMMER iterations and an E-value threshold of 10−7」

のMSA作成条件を最適条件として設定しました。

さらに彼らは、タンパク質の residue solvent accessibility (RSA) と熱安定性の関係にも着目しました。熱安定性予測モデルの入力情報に RSA を加えると、既存のいずれのモデルにおいても予測成績が向上したとのことです。