【リン酸化サイト同定】深層学習モデルでリン酸化配列を同定する方法

PTransIPs: Identification of phosphorylation sites based on protein pretrained language model and Transformer

深層学習を用いたタンパク質デザイン手法をベンチマークしています。

タンパク質のリン酸化サイトを同定するための深層学習モデルについて紹介した論文です。

タンパク質のリン酸化は、主にSer (S)/ Thr (T) または、Tyr (Y) に対して修飾されます。またリン酸化のされやすさは、その残基の周辺配列に依存していて、ある程度傾向があることが知られています。

機能未知のタンパク質（または特定のアミノ酸配列）に対して、リン酸化サイトを同定するための深層学習モデルが、これまでにいくつか開発されています。代表的なモデルは以下のとおりです。

筆者らは、近年よく利用される訓練済みの言語モデルと Transformer アーキテクチャを利用して、現行モデルより優れた成績を示すモデルを作成しました。

訓練用のデータセットは、COVID-19 に感染した A549 細胞のリン酸化データです。

構築したモデルのアブレーション試験から、S/Tサイトの同定は、配列と構造のエンベディングが必要である一方で、Yサイトの同定には、配列のみをエンベディングしたモデルが最良であることが示されました。この理由はYサイトにかかわる構造情報が少ないためとのことです。

モデルから生成できる配列の SequenceLogo を描画してみると、S/T サイトでは、Pro/Ser/Thr がリン酸化サイトの上流に、Pro/Glu は下流に存在することがわかります。一方で Y サイトでは、Pro/Serが上流と下流どちらにも存在しているとのことです。

おそらくリン酸化酵素によっても指向性があると思われるので、どの組織、どの画分（細胞内タンパク質・細胞外タンパク質など）のタンパク質データを利用するかで結果は変わってきそうなので、各標的キナーゼごとに分類できると良いと思いました。

モデルのコードはこちらで公開されています。