【Human Protein Atlas】ダウンロードできるデータの全貌

前回は、Human Protein Atlas の概要について解説しました。

今回は、データベースからダウンロードできるデータ構造について紹介します。

下のページから zip ファイルをダウンロードすることができます。

Downloadable data - The Human Protein Atlas

ダウンロードページからは、様々なファイルが公開されているのがおわかりいただけるかと思います。

早速この中から、rna_tissue_hpa.tsv.zip を開いてみてみましょう。pandas_profilingでデータを解析すると、以下のリンクのようなデータ構造をしていることがわかります。

これらのファイルのほとんどは、各遺伝子ごとの遺伝子発現量を示すデータが格納されています。つまり多くのファイルで共通する説明変数として、遺伝子ごとに付与されたIDとして機能する”Gene”と、遺伝子名そのものである”Gene name” が含まれています。

遺伝子の発現量は、TPM、pTPM、NXのいずれかで示されています。

TPM: transcripts per million

サンプル中に全転写産物が 100 万個存在するときに、各転写産物に何個あたりの転写産物が存在するのかを表します (https://bi.biopapyrus.jp/rnaseq/analysis/normalizaiton/tpm.html)

pTPM : protein-transcripts per million

TPMから、蛋白質をコードする転写産物のみを対象にしたときの値です

NX: normalized expression

HPA、GTEx、FANTOM5 のデータベース間で遺伝子発現量を標準化したときの値です

つぎに、ファイル間の違いを見てみましょう。例として、rna_celline.tsv.zip のデータ構造を次のようになります。

カラムに”Cell line” が追加されたのがご覧になれると思います。このように各ファイルごとに特異なアノテーションが付与されています。

いかがでしたでしょうか。ぜひ human protein atlas のデータをご活用いただければと思います。もし別の方向性でのデータの閲覧にご興味がありましたらコメントいただけると嬉しいです。

コメント