【タンパク質デザイン】プロテアーゼの基質配列を予測・生成するパイプライン CleaveNet を紹介

論文タイトル

Deep learning guided design of protease substrates

出典

Just a moment...

要旨

深層学習を用いてプロテアーゼ基質(特定のプロテアーゼによって切断されるペプチド)の設計を行う新しい AI パイプライン「CleaveNet」を提案・検証した研究です。

解説など

これまで対象のプロテアーゼの基質配列を予測するモデルは、切断の有無のみのバイナリ予測にとどまっていました。また生成モデルとしてはほとんど存在しません。

筆者らが構築した、CleaveNet は以下の2つの深層学習モデルで構成されます。

  • CleaveNet Predictor
    • 与えられたペプチド配列に対し、18種類のMMP(マトリックスメタロプロテアーゼ)による切断効率(Z-score)を予測。
    • トランスフォーマーまたはBiLSTMモデルを用いた回帰モデル。
    • 不確実性も同時に予測。
  • CleaveNet Generator
    • MMPに切断される可能性の高い新しいペプチド配列を生成。
    • 条件付き生成(特定のMMPに選択的に切断される基質)も可能。
    • トランスフォーマーを用いたエンコーダー・デコーダーモデル。
    • temperature付きsoftmax や top-k などにより配列をサンプリング

それぞれのモデルは訓練データとして、mRNAディスプレイで取得された18,500ペプチド配列のデータを活用しています。具体的には、11残基のランダム配列(NNKランダム化)を持つペプチドライブラリを使用しています。これをmRNAディスプレイで提示し固定化の後、MMPで処理して切断配列を溶出してNGSで配列を同定します。18種のMMPそれぞれに対して上記のデータを取得し、十分なリード数が得られた18,500の配列を訓練データとして取得しました。

モデルの評価においては、MMP13に焦点を当て、以下の結果を示しています。

  • CleaveNet生成ペプチド(n=24)はすべて実際にMMP13で切断された。
  • 一部は高効率かつ高選択性(他のMMPでは切断されにくい)という望ましい性質を示した。
  • 条件付き生成では、効率と選択性のトレードオフを調整可能で、設計目的に応じた基質を作成可能。

コードはこちら。

GitHub - microsoft/cleavenet: Deep learning tools for peptide substrate prediction and generation
Deep learning tools for peptide substrate prediction and generation - microsoft/cleavenet