【Python】タンパク質の特徴量を包括的に解析できる Python ライブラリ PyPropel とは。

論文タイトル

PyPropel: a Python-based tool for efficiently processing and characterising protein data

出典

PyPropel: a Python-based tool for efficiently processing and characterising protein data - BMC Bioinformatics
Background The volume of protein sequence data has grown exponentially in recent years, driven by advancements in metagenomics. Despite this, a substantial prop...

要旨

タンパク質の特徴量抽出を行う Python ツール PyPropel について紹介した論文です。

解説など

Python ベースのタンパク質解析ツールはこれまでにも多数公開されています。

低レイヤのツールとして biopython などがあり、本ブログでも紹介した Afpdb はタンパク質構造のデータ処理に特化したツールでした(この方向性のその他のツールは下記ブログを参照)。

これに対して、本記事で紹介する PyPropel は対象のタンパク質配列や構造モデルに対してさまざまな特徴量を計算したり、その特徴量を活用した機械学習モデルを構築した際の評価メトリクスの計算に強みをもつツールです。

ちなみに、このような目的で活用できるインフォマティクスツールとしては、下記のようなツールがこれまでに存在していました(詳細は本文参照)。

  • propy
  • protPy
  • PyBioMed
  • ProteinFlow
  • peptides.py
  • ProPythoa
  • scikit-bio
  • PyPropel
  • PyFeat
  • iFeature
  • iLearn
  • iLearn-Plus

これらのツールに対する PyPropel の特徴としては、MSA の解析が可能なことです。

本ツールから算出できる特徴量には、次のようなものがあります。

  • アミノ酸組成
  • 残基間距離
  • 保存領域
  • 溶媒露出残基
  • 2次構造
  • 23種の物性プロファイル

また、これらの特徴量をベースに構築された機械学習モデルに対して、その precision や recall をモデルの評価メトリクスとして計算することが可能です。

ソースコードはこちら。

GitHub - 2003100127/pypropel: Protein data pre- and post-processing
Protein data pre- and post-processing. Contribute to 2003100127/pypropel development by creating an account on GitHub.