論文タイトル
PERSEUcpp: A machine learning strategy to predict cell-penetrating peptides and their uptake efficiency
出典
Just a moment...
要旨
細胞透過性ペプチド(CPPs)の細胞内取り込み効率を機械学習で予測する新手法「PERSEUcpp」を提案しています。
解説など
本論文で紹介された 「PERSEUcpp」は、入力されたアミノ酸配列からそのペプチドが CPP であるかどうか、また CPP である場合はその取り込み効率を予測する手法です。入力はアミノ酸配列のみで、既知の配列・活性相関モデルと同じ機械学習によるアプローチで、予測モデルを構築しています。
背景として、これまでの SOTA 手法として SiameseCPP や ParactiCPP が知られていましたが、これらと比べて PERSEUcpp は次のような特徴を持ちます。
1. モデル構造・アルゴリズムの違い
モデル名 | モデルタイプ | 特徴 |
PERSEUcpp | 決定木系(ERT) | 解釈性が高く、特徴量の重要度を算出可能 |
SiameseCPP | 深層学習(Siameseネット) | コントラスト学習を利用。事前特徴不要、ブラックボックス的 |
MLCPP2.0 | 2層SVM+GradientBoosting | 特徴量設計が豊富だが、非通過の誤判定は第2層に進めない |
PractiCPP | 深層学習(ESM + RF) | ESM埋め込み+負例のハードサンプリングで不均衡対策 |
GraphCPP | グラフニューラルネットワーク | アミノ酸配列を分子グラフとして処理、GNNベース |
2. 特徴量設計(Feature Engineering)の違い
モデル名 | 特徴量の主な設計内容 |
PERSEUcpp | AAC, DPC, TPC, CKSAAGP, 原子組成(C/H/N/O/S), 物理化学的性質など計8831種 |
SiameseCPP | 原則「生の配列入力のみ」から深層特徴抽出 |
MLCPP2.0 | 多種多様な手工的特徴量(AAC, DPC, QSO, CTDC, CKSAAGPなど) |
PractiCPP | ESM-2事前学習表現, Morganフィンガープリント(構造局所性)など |
GraphCPP | アミノ酸をノード、物理化学特性をエッジに持つ分子グラフ構造 |
この手の自作した特徴量に基づくモデルは決定木系のアルゴリズムが強い傾向があり、本論文でも同様の結果となっています。
また訓練データにも工夫があり、使用したデータは過去に公開された複数のデータセットに由来しますが、CPP陽性・陰性の数をほぼ同数に維持しています。