論文タイトル
Deep learning guided design of protease substrates
出典
Just a moment...
要旨
深層学習を用いてプロテアーゼ基質(特定のプロテアーゼによって切断されるペプチド)の設計を行う新しい AI パイプライン「CleaveNet」を提案・検証した研究です。
解説など
これまで対象のプロテアーゼの基質配列を予測するモデルは、切断の有無のみのバイナリ予測にとどまっていました。また生成モデルとしてはほとんど存在しません。
筆者らが構築した、CleaveNet は以下の2つの深層学習モデルで構成されます。
- CleaveNet Predictor
- 与えられたペプチド配列に対し、18種類のMMP(マトリックスメタロプロテアーゼ)による切断効率(Z-score)を予測。
- トランスフォーマーまたはBiLSTMモデルを用いた回帰モデル。
- 不確実性も同時に予測。
- CleaveNet Generator
- MMPに切断される可能性の高い新しいペプチド配列を生成。
- 条件付き生成(特定のMMPに選択的に切断される基質)も可能。
- トランスフォーマーを用いたエンコーダー・デコーダーモデル。
- temperature付きsoftmax や top-k などにより配列をサンプリング
それぞれのモデルは訓練データとして、mRNAディスプレイで取得された18,500ペプチド配列のデータを活用しています。具体的には、11残基のランダム配列(NNKランダム化)を持つペプチドライブラリを使用しています。これをmRNAディスプレイで提示し固定化の後、MMPで処理して切断配列を溶出してNGSで配列を同定します。18種のMMPそれぞれに対して上記のデータを取得し、十分なリード数が得られた18,500の配列を訓練データとして取得しました。
モデルの評価においては、MMP13に焦点を当て、以下の結果を示しています。
- CleaveNet生成ペプチド(n=24)はすべて実際にMMP13で切断された。
- 一部は高効率かつ高選択性(他のMMPでは切断されにくい)という望ましい性質を示した。
- 条件付き生成では、効率と選択性のトレードオフを調整可能で、設計目的に応じた基質を作成可能。
コードはこちら。
GitHub - microsoft/cleavenet: Deep learning tools for peptide substrate prediction and generation
Deep learning tools for peptide substrate prediction and generation - microsoft/cleavenet