【タンパク質デザイン】プロテアーゼの基質配列を予測・生成するパイプライン CleaveNet を紹介

論文タイトル

Deep learning guided design of protease substrates

出典

Just a moment...

要旨

深層学習を用いてプロテアーゼ基質（特定のプロテアーゼによって切断されるペプチド）の設計を行う新しい AI パイプライン「CleaveNet」を提案・検証した研究です。

解説など

これまで対象のプロテアーゼの基質配列を予測するモデルは、切断の有無のみのバイナリ予測にとどまっていました。また生成モデルとしてはほとんど存在しません。

筆者らが構築した、CleaveNet は以下の２つの深層学習モデルで構成されます。

CleaveNet Predictor
- 与えられたペプチド配列に対し、18種類のMMP（マトリックスメタロプロテアーゼ）による切断効率（Z-score）を予測。
- トランスフォーマーまたはBiLSTMモデルを用いた回帰モデル。
- 不確実性も同時に予測。
CleaveNet Generator
- MMPに切断される可能性の高い新しいペプチド配列を生成。
- 条件付き生成（特定のMMPに選択的に切断される基質）も可能。
- トランスフォーマーを用いたエンコーダー・デコーダーモデル。
- temperature付きsoftmax や top-k などにより配列をサンプリング

それぞれのモデルは訓練データとして、mRNAディスプレイで取得された18,500ペプチド配列のデータを活用しています。具体的には、11残基のランダム配列（NNKランダム化）を持つペプチドライブラリを使用しています。これをmRNAディスプレイで提示し固定化の後、MMPで処理して切断配列を溶出してNGSで配列を同定します。18種のMMPそれぞれに対して上記のデータを取得し、十分なリード数が得られた18,500の配列を訓練データとして取得しました。

モデルの評価においては、MMP13に焦点を当て、以下の結果を示しています。