AIがタンパク質のリード最適化を自動化する:CRADLE-1によるタンパク質エンジニアリング

論文タイトル

What comes after de novo ? Automated lead optimization of proteins with CRADLE-1

出典

Handle Redirect

要旨

本研究では、タンパク質のリード最適化を自動化する機械学習システム「CRADLE-1」を提案しています。

解説など

オランダのバイオスタートアップ CRADLE が開発した CRADLE-1は、複数の機械学習モデルを組み合わせたリード最適化システムです。次のプロセスに従って最適化する手法を提案しています。

1. 基盤モデル(Protein Language Model)

まず、タンパク質配列を学習したタンパク質言語モデル(PLM)を利用します。詳細は不明ですが、学習タスクは masked language modeling で、学習データの例としてUniRefが挙げられています。

これは大量のタンパク質配列データ(例:UniRef)で事前学習されたモデルです。

2. Evotuning(進化的近傍での微調整)

次に、対象タンパク質の周辺にある進化的に類似した配列 (MSA) を使ってモデルを再学習します。これは evotuning と呼ばれ、対象タンパク質の局所的な配列空間をよりよく理解するためのステップです。

3. 実験データを使った学習

もし 配列と機能のペアデータ(sequence-function data) があれば、さらに2つのモデルを学習します。

  1. logiter
    • DPOで訓練
    • 最適化ラウンドごとにデータをグルーピングし、グループ内でペアを作成する
  2. predictor
    • 回帰モデル

この2つを組み合わせて候補配列を生成・評価します。

4. 変異設計アルゴリズム

配列設計は次のステップで行われます。

  1. テンプレート配列からEvotuningモデルで変異候補を生成
  2. beam searchで良い変異の組み合わせを探索
    • double beam searchを採用
      • accepted beam:高スコア候補
      • backup beam:少しスコアが低いが、多様性のある候補
  3. predictorで性能を評価
  4. 多様性を保ちながら候補を選択

こうして 96ウェルプレート程度のライブラリを設計します。

以下の実施例でCRADLE-1の性能を評価しています。いずれもラウンド3までで十分な機能改善を実現できている点は素晴らしいと思います。

Noターゲットモダリティ最適化対象ラウンド数主な結果
1EGFRscFvbinding1339 pM〜4.51 nMの結合
2SARS-CoV-2VHHWT binding / Omicron binding / thermostability / expression3WT KD 186 pM、Tm 70.9 °C
3Snake venom toxinsVHH3 toxins binding / thermostability / expression2<100 pM〜<2 nM binding
4Haloalkane dehalogenase (DhaA)enzymethermostability / expression / activity2Tm +20 °C
5P450 enzymeenzymeactivity3活性 40.6×
6IgG antibodyIgGpotency / aggregation / nonspecificity / immunogenicity / expression310候補を取得
7Bispecific VHHVHHdual binding / thermostability / expression / polyreactivity(明示なし)二重標的VHHを設計
8S. aureus vaccine antigenvaccinethermostability1Tm +2.5 °C
9CRISPR system (on-target)CRISPRediting activity3<25% → 68%
10CRISPR system (on/off-target)CRISPRon-target ↑ / off-target ↓275% on-target
11therapeutic peptidespeptidepotency / specificity / expression / thermostability1約50%成功率