【構造予測】2億個のタンパク質のドメインを自動で分類するツール

論文タイトル

DPAM: A Domain Parser for AlphaFold Models

出典

DPAM: A Domain Parser for AlphaFold Models
The recent breakthroughs in structure prediction, where methods such as AlphaFold demonstrated near atomic accuracy, herald a paradigm shift in structure biolog...

確認したいこと

インシリコでのタンパク質構造予測・デザイン手法をベンチマークしています。

要旨

本論文では、タンパク質構造のドメイン分類を効率的に行う手法、DPAM(Domain Parser for AlphaFold Models)を提案しています。

解説など

AlphaFoldで予測された構造がデータベースに着実に蓄積されており、その数は現在で2億個以上に上るとのことです。これらのドメイン分類・注釈付けをおこないたい、というのが本論文の目的になります。

これまでに周知されたドメイン分類定義には、以下のようなものが存在します。

  • Pfam
  • CDD
  • SCOP
  • CATH
  • ECOD

Pfam/CDDは配列に基づく分類、SCOP/CATHは構造に基づく分類です。

ECODは、筆者らが提案している分類定義です。進化的関係や構造など多面的な特徴を指標に分類する手法ですが、非ドメイン領域にはマニュアルで注釈付けをしなければならないことが課題です。AlphaFold由来の構造データは膨大であり、かつ非ドメイン領域をもつ割合が多いため、ECODの手法のみに頼るのは非現実的とのことでした。

DPAMは、ドメイン分類タスクを自動化することができ、下記に示す様々な指標から統合的に分類するため、大規模なデータを高精度に処理できることが期待されます。

  • Predicted Aligned Errors (PAE)
  • 残基間距離
  • HHsuiteやDALIによるECODドメイン

DPAMの分類精度は、下記に示すツールと比較検証されています。

  • PDP
  • PUU
  • HHS
  • DALI

既往の手法に比べて、総合的に優れた精度を示しています。具体的には、99.5%の割合でドメインをアノテーションすることができ、そのうちの85.2%で正しいドメイン境界に分類できていました。

以下にコードが公開されています。ぜひご覧ください。

https:// github.com/CongLabCode/DPAM

コメント