【エピトープ予測】深層学習モデルScanNetで、タンパク質の結合部位を予測

論文タイトル

ScanNet: an interpretable geometric deep learning model for structure-based protein binding site prediction

出典

Nat Methods. 2022 Jun;19(6):730-739.

ScanNet: an interpretable geometric deep learning model for structure-based protein binding site prediction - PubMed
Predicting the functional sites of a protein from its structure, such as the binding sites of small molecules, other proteins or antibodies, sheds light on its ...

確認したいこと

  • 抗体の構造予測ツール

要旨

深層学習モデルScanNetを利用して、タンパク質間相互作用の結合部位を予測する方法を提案した論文です。

用語

  • PPBS: protein-protein binding site
  • BCE: B cell epitope

解説など

ScanNetは、タンパク質結合部位を予測するための深層学習モデルです。

具体的には、PPBSとBCEを予測することができます。PPBSとは、相互作用する二つのタンパク質の結合アミノ酸残基のことです。またBCEは抗体のエピトープ候補となる抗原の表面領域のことになります。

ScanNet

ScanNetでは、学習するタンパク質の各原子を対象に、それに隣接するアミノ酸残基との空間的配置を表現して、学習モデルを構築します。このようなパターンは低分子におけるファーマコフォアに近い概念となります。

PPBS予測

PPBS予測のために、Dockgroundデータベースに含まれる重複を除いた20,000個のタンパク質複合体を学習しました。このデータセットの中にはおよそ500万個のアミノ酸を含み、うち22.7%がPPBSです。

本手法により構築されたScanNetモデルを、機械学習モデル(xgboost)、ホモロジーモデルとその予測精度を比較すると、ScanNetが最も高い精度であることが示されました。

MSAに相同性が全くないときに、やや精度が落ちるそうです。また、天然タンパク質どうしの結合界面(ホモ2量体など)と間違えるケースが若干数存在したとのことです。

本論文では、このモデルが学習した特徴量(2次構造やアミノ酸種)についても、詳しく解析されていました。

BCE予測

BCE予測のために、SabDabデータベースから、3756のタンパク質を学習しています。こちらもホモロジーモデルや、既存のBCE予測ツールであるDiscotopeと予測精度を比較したところ、ScanNetは、ほかのモデルを上回る精度であることが示されています。

この結果をもとに、SARS-CoV-2のスパイクタンパク質に存在するBCEの予測も試みています。

本手法はウェブサーバで利用することができます。ぜひお試ししてみてはいかがでしょうか。

ScanNet Webserver
ScanNet binding site prediction

コメント