【CPPデザイン】アミノ酸配列からCPPを予測する PERSEUcpp を紹介！

PERSEUcpp: A machine learning strategy to predict cell-penetrating peptides and their uptake efficiency

細胞透過性ペプチド（CPPs）の細胞内取り込み効率を機械学習で予測する新手法「PERSEUcpp」を提案しています。

本論文で紹介された「PERSEUcpp」は、入力されたアミノ酸配列からそのペプチドが CPP であるかどうか、また CPP である場合はその取り込み効率を予測する手法です。入力はアミノ酸配列のみで、既知の配列・活性相関モデルと同じ機械学習によるアプローチで、予測モデルを構築しています。

背景として、これまでの SOTA 手法として SiameseCPP や ParactiCPP が知られていましたが、これらと比べて PERSEUcpp は次のような特徴を持ちます。

1. モデル構造・アルゴリズムの違い

モデル名	モデルタイプ	特徴
PERSEUcpp	決定木系（ERT）	解釈性が高く、特徴量の重要度を算出可能
SiameseCPP	深層学習（Siameseネット）	コントラスト学習を利用。事前特徴不要、ブラックボックス的
MLCPP2.0	2層SVM＋GradientBoosting	特徴量設計が豊富だが、非通過の誤判定は第2層に進めない
PractiCPP	深層学習（ESM + RF）	ESM埋め込み＋負例のハードサンプリングで不均衡対策
GraphCPP	グラフニューラルネットワーク	アミノ酸配列を分子グラフとして処理、GNNベース

2. 特徴量設計（Feature Engineering）の違い

モデル名	特徴量の主な設計内容
PERSEUcpp	AAC, DPC, TPC, CKSAAGP, 原子組成（C/H/N/O/S）, 物理化学的性質など計8831種
SiameseCPP	原則「生の配列入力のみ」から深層特徴抽出
MLCPP2.0	多種多様な手工的特徴量（AAC, DPC, QSO, CTDC, CKSAAGPなど）
PractiCPP	ESM-2事前学習表現, Morganフィンガープリント（構造局所性）など
GraphCPP	アミノ酸をノード、物理化学特性をエッジに持つ分子グラフ構造