論文タイトル
PiNUI: A Dataset of Protein–Protein Interactions for Machine Learning
出典

要旨
既存の課題を解決した新しいPPI データセット PiNUI を作成した報告です。
解説など
PPI のデータセットは、複合体構造のモデリングや相互作用パートナーの探索を目的とした解析モデルの訓練・検証データとして広く活用されています。筆者らは既存の公知データセットの課題について言及し、それを解決する新しいデータセットの作成を試みました。
既存のデータセットとして有名なのは以下の2つで、本研究でも比較対象として利用されています。
- Guo’s dataset: yeast PPIs
- Pan’s dataset: human PPIs
これら既存のデータセットに対して、筆者らが疑問視したアプローチは次のとおりです。
- 1. 正例・負例それぞれに特有の配列パターンがある
- 2. 負例にランダムに選択された配列ペアが使用されている
- 3. 負例の選択にタンパク質の局在情報が利用されている
1.についてだけ補足すると、当然相互作用に寄与するローカルモチーフに特徴があるのは良いことなのですが、データセット作成の都合から特定のファミリーのタンパク質に偏るようなことは望ましくありません。
筆者らはこれらの課題を解決した PiNUI という新しいPPIデータセットを作成しました。このデータセットの負例には、ランダムでペアリングされた配列や細胞内局在が異なることを理由にペアリングされた配列は存在しません。また配列パターンの偏りをなくすために、正例データに含まれるタンパク質ペアの片方が共通した負例データを準備するように工夫されています。
相互作用ペアデータ自体は、European Bioinformatics Institute’s intAct interactome から抽出しています。筆者らは酵母タンパク質用のデータセット、ヒトタンパク質用のデータセットをそれぞれ作成しました。
既存のGuo, Pan データセットと比較するために、各データセットで訓練して構築した分類モデル(3-layers MLP) で PPI の予測精度を検証しています。リークのない検証用データで評価すると PiNUI が最も予測精度が高い結果となっています。
近年では PPI 予測に限らずデータ成形の重要性が謳われるようになっており、このような規模に頼らない工夫は非常に参考になります。