【エピトープ予測】深層学習モデルScanNetで、タンパク質の結合部位を予測

ScanNet: an interpretable geometric deep learning model for structure-based protein binding site prediction

Nat Methods. 2022 Jun;19(6):730-739.

深層学習モデルScanNetを利用して、タンパク質間相互作用の結合部位を予測する方法を提案した論文です。

ScanNetは、タンパク質結合部位を予測するための深層学習モデルです。

具体的には、PPBSとBCEを予測することができます。PPBSとは、相互作用する二つのタンパク質の結合アミノ酸残基のことです。またBCEは抗体のエピトープ候補となる抗原の表面領域のことになります。

ScanNetでは、学習するタンパク質の各原子を対象に、それに隣接するアミノ酸残基との空間的配置を表現して、学習モデルを構築します。このようなパターンは低分子におけるファーマコフォアに近い概念となります。

PPBS予測のために、Dockgroundデータベースに含まれる重複を除いた20,000個のタンパク質複合体を学習しました。このデータセットの中にはおよそ500万個のアミノ酸を含み、うち22.7%がPPBSです。

本手法により構築されたScanNetモデルを、機械学習モデル（xgboost）、ホモロジーモデルとその予測精度を比較すると、ScanNetが最も高い精度であることが示されました。

MSAに相同性が全くないときに、やや精度が落ちるそうです。また、天然タンパク質どうしの結合界面（ホモ2量体など）と間違えるケースが若干数存在したとのことです。

本論文では、このモデルが学習した特徴量（２次構造やアミノ酸種）についても、詳しく解析されていました。

BCE予測のために、SabDabデータベースから、3756のタンパク質を学習しています。こちらもホモロジーモデルや、既存のBCE予測ツールであるDiscotopeと予測精度を比較したところ、ScanNetは、ほかのモデルを上回る精度であることが示されています。

この結果をもとに、SARS-CoV-2のスパイクタンパク質に存在するBCEの予測も試みています。

本手法はウェブサーバで利用することができます。ぜひお試ししてみてはいかがでしょうか。