【プログラミング】タンパク質構造データを処理するための新しい Python パッケージ Afpdb とは

論文タイトル

Afpdb – an efficient structure manipulation package for AI protein design

出典

Just a moment...

要旨

タンパク質構造データを処理するためのコーディングライブラリである Afpdb を紹介した論文です。

解説など

タンパク質構造のデータ処理には、これまで以下のようなライブラリが開発されています。

  • Biopython
  • pdb-tools
  • pdbtools package
  • BioPandas
  • Biotite
  • Pyrosetta
  • cctbx
  • gemmi
  • MDAnalysis
  • ProDy

本論文において筆者らは、AI モデルの活用機会が増えている昨今のニーズに合わせて、新しい Pythonのライブラリパッケージ(Afpdb)を開発しました。Afpdb の主要な特徴として以下の3点が挙げられています。

  1. 大規模な構造データを高速に処理できること
  2. 多様なデータフォーマットに対応して統一的なコーディングが可能
  3. PyMOL との連携機能が充実

1に関しては、AI モデルの活用を想定した場合、大規模な構造モデル群をパラレルに処理する必要が生じるので便利な特徴です。Afpdb は構造データ処理に、AlphaFold で採用されている Numpy のアーキテクチャを採用しています。Biopython では、chain / residue / atom のデータを階層的に抽出する必要があるのとは異なり、Afpdb では直接的に値を参照できるため、コーディングが容易になり処理も高速化されます。

2に関しては、Biopython だと、PDBParser.get_structure, MMCIFParser.get_structure のようにデータ形式ごとに異なるメソッドを使用しなければなりませんでしたが、Afpdb では同じメソッドにラッピングされていて便利です。

基本的には、タンパク質の構造に特化したライブラリで、天然のアミノ酸しか扱えないため、非天然アミノ酸や翻訳後修飾、DNA/RNA などは Afpdb で扱えないので注意が必要です。

論文中には、コード例も記載されているので、ぜひご参照ください。

Github: https://github.com/data2code/afpdb

PyPI: https://pypi.org/project/afpdb/