論文タイトル
Graphein – a Python Library for Geometric Deep Learning and Network Analysis on Protein Structures and Interaction Networks
出典
確認したいこと
深層学習を利用した、タンパク質構造予測・デザイン手法をベンチマークしています。
要旨
生物学的なデータを機械学習に供するためのグラフ表現を、柔軟かつ簡便におこなうためのPythonライブラリ、Grapheinを紹介した論文です。
解説など
生物学的な情報を集めたデータベースは、タンパク質、遺伝子、分子間相互作用、シグナルネットワークなど様々あります。これらのデータを機械学習に供するためのグラフ表現を、柔軟かつ簡便におこなうためのPythonライブラリを提供した、というのがこの論文の報告です。筆者らはこのフレームワークを”Graphein”と呼んでいます。
低分子に関する同種のライブラリは、TorchDrugやDeepChemなどが既存にあるのですが、高分子に関するものは限定的であったとのことです。グラフ表現は、並進および回転操作に対して不変であるため、立体配座を扱う上で便利で、近年はタンパク質デザインにも応用されています。
タンパク質構造をグラフ化するのが代表的な使い方になりますが、Grapheinでは、PDBやAlphaFoldの構造データベースのデータを扱うことができます。
ノード表現に着目すると、アミノ酸残基をひとつのノードと定義したグラフ表現が代表的です。原子ベースまたは側鎖重心をノードとして設定することができます。各ノードには、ExPaSY ProtScaleやAAIndexから計算できる、等電点、変異性、膜透過などの情報を含めることができます。またESM-1などの事前学習言語モデルによる配列エンベディング、DSSPにより計算された2次構造情報も使用可能です。
エッジ表現については、
- 距離ベース
- 分子内相互作用ベース
- 原子構造ベース
の3つに分類することができ、それぞれGrapheinで取り扱うことが可能です。
このブログでは詳説しませんが、この他、タンパク質構造のメッシュ情報、RNA構造、タンパク質間相互作用ネットワーク、遺伝子制御ネットワークなども、Grapheinで扱うことが可能です。
ドキュメントも整備されています。ぜひご覧ください。

コメント