Graph Attention Networksを利用したエピトープ・パラトープ予測手法 PECAN

論文タイトル

Learning context-aware structural representations to predict antigen and antibody binding interfaces

出典

Bioinformatics. 2020 Jul 1;36(13):3996-4003.

Learning context-aware structural representations to predict antigen and antibody binding interfaces - PubMed

The source code is freely available on github at

確認したいこと

深層学習を利用した、タンパク質構造予測・デザイン手法をベンチマークしています。

要旨

筆者らは、抗体と抗原の両方の結合界面（パラトープとエピトープ）を予測できる、グラフニューラルネットワークを利用した深層学習フレームワーク (PECAN) を開発しました。

解説など

本研究は、グラフニューラルネットワークを利用して、パラトープとエピトープを両方予測することができる手法を紹介しています。特に、Attention層の採用が予測精度に寄与すると仮説を立てて、その効果に着目した評価をおこなっています。

データセットには、後述する比較対象となる従来法で活用されたタンパク質構造データセットを使用しています。また、一般的なタンパク質のエンベディング方法は、GCNをタンパク質の結合界面予測に活用した従来法 (Fout et al.) を参照しています。

ノード：各アミノ酸残基をノードとして、下記に示す62次元で表現

アミノ酸の種類 (d=20)
PSI-BLASTで解析されたホモロジータンパク質間で保存された情報 (d=20)
STRIDEで解析された溶媒露出表面 (d=20)
８Å以内の残基が関与する局所配列情報 (d=2)

エッジ：10 Å以内のCβ間距離を示す残基間を表現

一方で、抗体のエンベディングは、CDRを中心とした”CDRclouds”と呼ぶ領域に制限して処理をおこなっています。具体的にはCDRの領域をアノテーションした後、配列上隣り合う残基や、Cβ間の距離が6Å 以内となる残基を含めてエンベディング対象としているようです。

下記に示す異なる5種類のネットワークと、訓練手法で予測性能を比較しています。

ネットワーク

全結合層のみ(no convolution)
1つの畳み込み層(Conv1-layer)
2つの畳み込み層(Conv2-layer)
1つの畳み込み層＋アテンション層(Conv1-layer+Atten)
2つの畳み込み層＋アテンション層(Conv2-layer+Atten)

訓練手法

特有タスク学習：抗体・抗原複合体データのみで学習

事前学習の活用：ジェネラルなタンパク質間相互作用データで学習されたモデルからのファインチューニング

評価予測

モデルからの出力は各残基に対する確率で表されます。本評価では閾値を0.5として、それ以上の値を示す残基をエピトープまたはパラトープとして設定しています。

比較対象手法

各タスクの評価時には、以下に示す従来法と性能を比較しています。

エピトープ予測

Epipred
DiscoTope

パラトープ予測

Antibody i-Patch
Deberdaku et al. (構造に基づく分類手法）

結果

エピトープ予測、パラトープ予測ともに、従来法と比較してグラフニューラルネットワークを利用した手法の成績が高く、各ネットワークのなかではConv2-layer+Attenが最良でした。一方で、エピトープ予測においては、事前学習モデルの予測性能は、特有タスク学習をおこなったモデルに比べて劣っていたとのことです。