タンパク質間相互作用の親和性を予測するProAffinity-GNNを紹介

論文タイトル

ProAffinity-GNN: A Novel Approach to Structure-based Protein-Protein Binding Affinity Prediction via a Curated Dataset and Graph Neural Networks

出典

ProAffinity-GNN: A Novel Approach to Structure-based Protein-Protein Binding Affinity Prediction via a Curated Dataset and Graph Neural Networks
Protein-protein interactions (PPIs) are crucial for understanding biological processes and disease mechanisms, contributing significantly to advances in protein...

要旨

マニュアルでキュレーションした改良データセットを活用して、タンパク質間相互作用の強度を予測するモデルを開発した論文です。

解説など

タンパク質間相互作用の結合親和性を予測するモデルは、既報のモデルが多数存在します。それだけ需要が高く、また解決の難しい課題であることがうかがえます。

筆者らが公開した手法において、この問題に対して具体的に解決を試みた課題は、信頼のおけるデータセットの充実化です。相互作用にかかわる情報を格納した代表的なデータセットとしては、PDBbind が挙げられます。このデータセットには対象となるタンパク質の構造情報とともに、複合体間の相互作用の親和性情報が格納されています。一方で、これらデータには、多数のタンパク質鎖からなる複合体構造が登録され、どのタンパク質鎖のどのドメイン間で相互作用が形成されているかという情報を効率的に抽出することが難しい、という課題がありました。筆者らは、マニュアルで、実際に相互作用しているタンパク質鎖領域を同定して、データセットにその情報ラベルを付与することで、訓練データの品質の向上を試みました。

このデータセットをもとづいて、GNN のアーキテクチャで親和性予測のために構築されたモデルが、ProAffinity-GNN になります。

検証試験では、過去に公開された下記のモデルと性能の比較をおこなっています。

  • PRODIGY
  • DEFIRE
  • CP_PIE
  • ISLAND
  • PPI-Affinity

3種類のテストデータのうち、1つは PRODIGY が最も高い実測結果と予測結果の相関が示されましたが、残り2つに対しては、ProAffinity-GNN が最も高い成績を示していました。既報の結果と比べて格段な効果は認められませんでしたが、データの効果的な取り扱いのための Tips として、良い視点を示した論文といえると思います。