【グラフニューラルネットワーク】タンパク質構造をグラフ表現するためのPythonモジュールGrapheinについて

論文タイトル

Graphein – a Python Library for Geometric Deep Learning and Network Analysis on Protein Structures and Interaction Networks

出典

Handle Redirect

確認したいこと

深層学習を利用した、タンパク質構造予測・デザイン手法をベンチマークしています。

要旨

生物学的なデータを機械学習に供するためのグラフ表現を、柔軟かつ簡便におこなうためのPythonライブラリ、Grapheinを紹介した論文です。

解説など

生物学的な情報を集めたデータベースは、タンパク質、遺伝子、分子間相互作用、シグナルネットワークなど様々あります。これらのデータを機械学習に供するためのグラフ表現を、柔軟かつ簡便におこなうためのPythonライブラリを提供した、というのがこの論文の報告です。筆者らはこのフレームワークを”Graphein”と呼んでいます。

低分子に関する同種のライブラリは、TorchDrugやDeepChemなどが既存にあるのですが、高分子に関するものは限定的であったとのことです。グラフ表現は、並進および回転操作に対して不変であるため、立体配座を扱う上で便利で、近年はタンパク質デザインにも応用されています。

タンパク質構造をグラフ化するのが代表的な使い方になりますが、Grapheinでは、PDBやAlphaFoldの構造データベースのデータを扱うことができます。

ノード表現に着目すると、アミノ酸残基をひとつのノードと定義したグラフ表現が代表的です。原子ベースまたは側鎖重心をノードとして設定することができます。各ノードには、ExPaSY ProtScaleやAAIndexから計算できる、等電点、変異性、膜透過などの情報を含めることができます。またESM-1などの事前学習言語モデルによる配列エンベディング、DSSPにより計算された2次構造情報も使用可能です。

エッジ表現については、

  • 距離ベース
  • 分子内相互作用ベース
  • 原子構造ベース

の3つに分類することができ、それぞれGrapheinで取り扱うことが可能です。

このブログでは詳説しませんが、この他、タンパク質構造のメッシュ情報、RNA構造、タンパク質間相互作用ネットワーク、遺伝子制御ネットワークなども、Grapheinで扱うことが可能です。

ドキュメントも整備されています。ぜひご覧ください。

Welcome to Graphein’s documentation!
This package provides functionality for producing a number of types of graph-based representations of proteins. We provide compatibility with standard geometric...

コメント

Updating cart

お買い物かご