【タンパク質構造解析】深層学習を利用した、タンパク質の表面露出領域予測

論文タイトル

Precise estimation of residue relative solvent accessible area from Cα atom distance matrix using a deep learning method

出典

Precise estimation of residue relative solvent accessible area from Cα atom distance matrix using a deep learning method - PubMed
Supplementary data are available at Bioinformatics online.

確認したいこと

  • タンパク質の表面露出残基の同定手法

要旨

深層学習を利用した、溶媒接触可能領域の推定法 EAGERERを提案した

用語

  • SA: solvent accessible area
  • RSA: relative solvent accessible area
  • HSE: half sphere exposure

解説など

タンパク質間相互作用における安定性や特異性は、タンパク質表面に存在するアミノ酸残基に大きな影響を受けます。

各残基が表面に露出するかどうかは、溶媒接触可能領域(solvent accessible area, SA)として評価することが可能です。各アミノ酸残基は側鎖によってサイズなどの特徴が異なるため、通常はSAを各アミノ酸に対する最大のSAで割った値である、相対溶媒接触可能領域(relative solvent accessible area, RSA)として計算されます。

一方でRSAにはいくつかの課題があります。ひとつに、分解能の低い構造解析情報からでは、計算が難しいことが挙げられます。また、完全に埋まった残基をRSAで記述するのは困難です。

そこでRSAの代替となる表面露出を評価する手法がこれまで検討されてきました。代表的なパラメータを以下に挙げます。

  • 配位数(coordination number, CN)
  • HSE (half sphere exposure)
  • SphereCon

今回紹介する論文では、Cα原子距離行列を利用した深層学習による新規RSA推定法である、EAGERERについての発表です。

本手法は、他の機械学習手法(fully connected network, ridge regression, random forest)と比べて優れた予測精度であることが示されています。また、既存のRSA予測手法(CN, HSE, SphereCon)に対しても優位な結果であったとのことです。

EAGERERによる予測では、以下の特徴がみられます。

  • 短いタンパク質では、有用な情報を得ることができない
  • 2次構造に対しては、ヘリックス > コイル > ストランドの順に予測精度が高い
  • αファミリータンパク質は、βファミリータンパク質よりも予測が難しい

原理の詳細まで追えていませんが、Cαをインプットに予測しているとのことで側鎖の向きまで考慮に入れることは難しいでしょうか。図4のように各アミノ酸残基に対するRSAを表現することができるので、タンパク質デザインに有用であると感じました。

コメント