【構造予測】2億個のタンパク質のドメインを自動で分類するツール

論文タイトル

DPAM: A Domain Parser for AlphaFold Models

出典

Just a moment...

確認したいこと

インシリコでのタンパク質構造予測・デザイン手法をベンチマークしています。

要旨

本論文では、タンパク質構造のドメイン分類を効率的に行う手法、DPAM(Domain Parser for AlphaFold Models)を提案しています。

解説など

AlphaFoldで予測された構造がデータベースに着実に蓄積されており、その数は現在で2億個以上に上るとのことです。これらのドメイン分類・注釈付けをおこないたい、というのが本論文の目的になります。

これまでに周知されたドメイン分類定義には、以下のようなものが存在します。

Pfam
CDD
SCOP
CATH
ECOD

Pfam/CDDは配列に基づく分類、SCOP/CATHは構造に基づく分類です。

ECODは、筆者らが提案している分類定義です。進化的関係や構造など多面的な特徴を指標に分類する手法ですが、非ドメイン領域にはマニュアルで注釈付けをしなければならないことが課題です。AlphaFold由来の構造データは膨大であり、かつ非ドメイン領域をもつ割合が多いため、ECODの手法のみに頼るのは非現実的とのことでした。

DPAMは、ドメイン分類タスクを自動化することができ、下記に示す様々な指標から統合的に分類するため、大規模なデータを高精度に処理できることが期待されます。