【タンパク質構造解析】トポロジー情報で、タンパク質をエンベディング

論文タイトル

The Topological Properties of the Protein Universe

出典

https://www.biorxiv.org/content/10.1101/2023.09.25.559443v1

要旨

タンパク質の特徴を、トポロジカルな構造情報から説明することを試みたレポートです。

解説など

筆者らは、構造のトポロジー情報に基づいて、タンパク質を特徴付けする方法を解説しています。

トポロジー情報を用いたデータ解析手法(TDA)では、近年、持続的相同性(PH)という指標が最も良く用いられています。散在する点を一連の明らかな形状に変換して、さまざまなスケールにわたって持続するシステムの特徴を識別する計算手法です。

筆者らは、AlphaFold の予測構造およそ2億個を解析するために、PH ベースの TDA 手法(topology generator)を開発しました。

具体的には、以下の手順でタンパク質の構造を表現し直しています。

  • 構造をモデル化して、Cα をベースに点群表現を生成
  • 点群を PH パイプラインの入力として使用し、各トポロジー特徴量を算出
  • 各アミノ酸のトポロジー特徴量への貢献度(persistence)を算出
  • 相互作用への寄与を説明するトポロジー影響度(TIF)を算出

この手法で生成されたトポロジー特徴量の1次元目は、およそ CATH ドメイン分類を捉えており、2次元目は、相互作用に関連付けられていると考察しています。

この topology generator を活用して、筆者らは天然のタンパク質に対して、以下の考察を行っています。

  • ヒトは他の哺乳動物と比べてトポロジカルな多様性は低い(複雑さはネットワーク構造で補っている)
  • 好熱性生物から予測されるタンパク質構造は、空隙が中温性生物の同等のものよりも小さく、よりコンパクトである
  • 病気を引き起こすアミノ酸変異は、病気を引き起こさない変異よりも、トポロジージェネレーターにおいて、同じ領域に存在する可能性が高い