論文タイトル
The Topological Properties of the Protein Universe
出典
https://www.biorxiv.org/content/10.1101/2023.09.25.559443v1
要旨
タンパク質の特徴を、トポロジカルな構造情報から説明することを試みたレポートです。
解説など
筆者らは、構造のトポロジー情報に基づいて、タンパク質を特徴付けする方法を解説しています。
トポロジー情報を用いたデータ解析手法(TDA)では、近年、持続的相同性(PH)という指標が最も良く用いられています。散在する点を一連の明らかな形状に変換して、さまざまなスケールにわたって持続するシステムの特徴を識別する計算手法です。
筆者らは、AlphaFold の予測構造およそ2億個を解析するために、PH ベースの TDA 手法(topology generator)を開発しました。
具体的には、以下の手順でタンパク質の構造を表現し直しています。
- 構造をモデル化して、Cα をベースに点群表現を生成
- 点群を PH パイプラインの入力として使用し、各トポロジー特徴量を算出
- 各アミノ酸のトポロジー特徴量への貢献度(persistence)を算出
- 相互作用への寄与を説明するトポロジー影響度(TIF)を算出
この手法で生成されたトポロジー特徴量の1次元目は、およそ CATH ドメイン分類を捉えており、2次元目は、相互作用に関連付けられていると考察しています。
この topology generator を活用して、筆者らは天然のタンパク質に対して、以下の考察を行っています。
- ヒトは他の哺乳動物と比べてトポロジカルな多様性は低い(複雑さはネットワーク構造で補っている)
- 好熱性生物から予測されるタンパク質構造は、空隙が中温性生物の同等のものよりも小さく、よりコンパクトである
- 病気を引き起こすアミノ酸変異は、病気を引き起こさない変異よりも、トポロジージェネレーターにおいて、同じ領域に存在する可能性が高い