【リン酸化サイト同定】深層学習モデルでリン酸化配列を同定する方法

論文タイトル

PTransIPs: Identification of phosphorylation sites based on protein pretrained language model and Transformer

出典

PTransIPs: Identification of phosphorylation sites enhanced by protein PLM embeddings
Phosphorylation is pivotal in numerous fundamental cellular processes and plays a significant role in the onset and progression of various diseases. The accurat...

確認したいこと

深層学習を用いたタンパク質デザイン手法をベンチマークしています。

要旨

タンパク質のリン酸化サイトを同定するための深層学習モデルについて紹介した論文です。

解説など

タンパク質のリン酸化は、主にSer (S)/ Thr (T) または、Tyr (Y) に対して修飾されます。またリン酸化のされやすさは、その残基の周辺配列に依存していて、ある程度傾向があることが知られています。

機能未知のタンパク質(または特定のアミノ酸配列)に対して、リン酸化サイトを同定するための深層学習モデルが、これまでにいくつか開発されています。代表的なモデルは以下のとおりです。

  • MusiteDeep2017:CNN
  • DeepPhos:CNN
  • MusiteDeep2020:CapsNet
  • DeepIPs:CNN、LSTM
  • DEMHAIPs:multi-head attention

筆者らは、近年よく利用される訓練済みの言語モデルと Transformer アーキテクチャを利用して、現行モデルより優れた成績を示すモデルを作成しました。

訓練用のデータセットは、COVID-19 に感染した A549 細胞のリン酸化データです。

構築したモデルのアブレーション試験から、S/Tサイトの同定は、配列と構造のエンベディングが必要である一方で、Yサイトの同定には、配列のみをエンベディングしたモデルが最良であることが示されました。この理由はYサイトにかかわる構造情報が少ないためとのことです。

モデルから生成できる配列の SequenceLogo を描画してみると、S/T サイトでは、Pro/Ser/Thr がリン酸化サイトの上流に、Pro/Glu は下流に存在することがわかります。一方で Y サイトでは、Pro/Serが上流と下流どちらにも存在しているとのことです。

おそらくリン酸化酵素によっても指向性があると思われるので、どの組織、どの画分(細胞内タンパク質・細胞外タンパク質など)のタンパク質データを利用するかで結果は変わってきそうなので、各標的キナーゼごとに分類できると良いと思いました。

モデルのコードはこちらで公開されています。

GitHub - StatXzy7/PTransIPs: PTransIPs: Identification of phosphorylation sites based on protein pretrained language model and Transformer
PTransIPs: Identification of phosphorylation sites based on protein pretrained language model and Transformer - StatXzy7/PTransIPs

コメント