論文タイトル
What comes after de novo ? Automated lead optimization of proteins with CRADLE-1
出典
要旨
本研究では、タンパク質のリード最適化を自動化する機械学習システム「CRADLE-1」を提案しています。
解説など
オランダのバイオスタートアップ CRADLE が開発した CRADLE-1は、複数の機械学習モデルを組み合わせたリード最適化システムです。次のプロセスに従って最適化する手法を提案しています。
1. 基盤モデル(Protein Language Model)
まず、タンパク質配列を学習したタンパク質言語モデル(PLM)を利用します。詳細は不明ですが、学習タスクは masked language modeling で、学習データの例としてUniRefが挙げられています。
これは大量のタンパク質配列データ(例:UniRef)で事前学習されたモデルです。
2. Evotuning(進化的近傍での微調整)
次に、対象タンパク質の周辺にある進化的に類似した配列 (MSA) を使ってモデルを再学習します。これは evotuning と呼ばれ、対象タンパク質の局所的な配列空間をよりよく理解するためのステップです。
3. 実験データを使った学習
もし 配列と機能のペアデータ(sequence-function data) があれば、さらに2つのモデルを学習します。
- logiter
- DPOで訓練
- 最適化ラウンドごとにデータをグルーピングし、グループ内でペアを作成する
- predictor
- 回帰モデル
この2つを組み合わせて候補配列を生成・評価します。
4. 変異設計アルゴリズム
配列設計は次のステップで行われます。
- テンプレート配列からEvotuningモデルで変異候補を生成
- beam searchで良い変異の組み合わせを探索
- double beam searchを採用
- accepted beam:高スコア候補
- backup beam:少しスコアが低いが、多様性のある候補
- double beam searchを採用
- predictorで性能を評価
- 多様性を保ちながら候補を選択
こうして 96ウェルプレート程度のライブラリを設計します。
以下の実施例でCRADLE-1の性能を評価しています。いずれもラウンド3までで十分な機能改善を実現できている点は素晴らしいと思います。
| No | ターゲット | モダリティ | 最適化対象 | ラウンド数 | 主な結果 |
| 1 | EGFR | scFv | binding | 1 | 339 pM〜4.51 nMの結合 |
| 2 | SARS-CoV-2 | VHH | WT binding / Omicron binding / thermostability / expression | 3 | WT KD 186 pM、Tm 70.9 °C |
| 3 | Snake venom toxins | VHH | 3 toxins binding / thermostability / expression | 2 | <100 pM〜<2 nM binding |
| 4 | Haloalkane dehalogenase (DhaA) | enzyme | thermostability / expression / activity | 2 | Tm +20 °C |
| 5 | P450 enzyme | enzyme | activity | 3 | 活性 40.6× |
| 6 | IgG antibody | IgG | potency / aggregation / nonspecificity / immunogenicity / expression | 3 | 10候補を取得 |
| 7 | Bispecific VHH | VHH | dual binding / thermostability / expression / polyreactivity | (明示なし) | 二重標的VHHを設計 |
| 8 | S. aureus vaccine antigen | vaccine | thermostability | 1 | Tm +2.5 °C |
| 9 | CRISPR system (on-target) | CRISPR | editing activity | 3 | <25% → 68% |
| 10 | CRISPR system (on/off-target) | CRISPR | on-target ↑ / off-target ↓ | 2 | 75% on-target |
| 11 | therapeutic peptides | peptide | potency / specificity / expression / thermostability | 1 | 約50%成功率 |

