【Python】タンパク質の特徴量を包括的に解析できる Python ライブラリ PyPropel とは。

PyPropel: a Python-based tool for efficiently processing and characterising protein data

タンパク質の特徴量抽出を行う Python ツール PyPropel について紹介した論文です。

Python ベースのタンパク質解析ツールはこれまでにも多数公開されています。

低レイヤのツールとして biopython などがあり、本ブログでも紹介した Afpdb はタンパク質構造のデータ処理に特化したツールでした（この方向性のその他のツールは下記ブログを参照）。

これに対して、本記事で紹介する PyPropel は対象のタンパク質配列や構造モデルに対してさまざまな特徴量を計算したり、その特徴量を活用した機械学習モデルを構築した際の評価メトリクスの計算に強みをもつツールです。

ちなみに、このような目的で活用できるインフォマティクスツールとしては、下記のようなツールがこれまでに存在していました（詳細は本文参照）。

これらのツールに対する PyPropel の特徴としては、MSA の解析が可能なことです。

本ツールから算出できる特徴量には、次のようなものがあります。

また、これらの特徴量をベースに構築された機械学習モデルに対して、その precision や recall をモデルの評価メトリクスとして計算することが可能です。

ソースコードはこちら。