AIがタンパク質のリード最適化を自動化する：CRADLE-1によるタンパク質エンジニアリング

What comes after de novo ? Automated lead optimization of proteins with CRADLE-1

本研究では、タンパク質のリード最適化を自動化する機械学習システム「CRADLE-1」を提案しています。

オランダのバイオスタートアップ CRADLE が開発した CRADLE-1は、複数の機械学習モデルを組み合わせたリード最適化システムです。次のプロセスに従って最適化する手法を提案しています。

1. 基盤モデル（Protein Language Model）

まず、タンパク質配列を学習したタンパク質言語モデル（PLM）を利用します。詳細は不明ですが、学習タスクは masked language modeling で、学習データの例としてUniRefが挙げられています。

これは大量のタンパク質配列データ（例：UniRef）で事前学習されたモデルです。

2. Evotuning（進化的近傍での微調整）

次に、対象タンパク質の周辺にある進化的に類似した配列 (MSA) を使ってモデルを再学習します。これは evotuning と呼ばれ、対象タンパク質の局所的な配列空間をよりよく理解するためのステップです。

3. 実験データを使った学習

もし配列と機能のペアデータ（sequence-function data）があれば、さらに2つのモデルを学習します。

この2つを組み合わせて候補配列を生成・評価します。

4. 変異設計アルゴリズム

配列設計は次のステップで行われます。

テンプレート配列からEvotuningモデルで変異候補を生成
beam searchで良い変異の組み合わせを探索
- double beam searchを採用
  - accepted beam：高スコア候補
  - backup beam：少しスコアが低いが、多様性のある候補
predictorで性能を評価
多様性を保ちながら候補を選択

こうして 96ウェルプレート程度のライブラリを設計します。

以下の実施例でCRADLE-1の性能を評価しています。いずれもラウンド３までで十分な機能改善を実現できている点は素晴らしいと思います。

No	ターゲット	モダリティ	最適化対象	ラウンド数	主な結果
1	EGFR	scFv	binding	1	339 pM〜4.51 nMの結合
2	SARS-CoV-2	VHH	WT binding / Omicron binding / thermostability / expression	3	WT KD 186 pM、Tm 70.9 °C
3	Snake venom toxins	VHH	3 toxins binding / thermostability / expression	2	<100 pM〜<2 nM binding
4	Haloalkane dehalogenase (DhaA)	enzyme	thermostability / expression / activity	2	Tm +20 °C
5	P450 enzyme	enzyme	activity	3	活性 40.6×
6	IgG antibody	IgG	potency / aggregation / nonspecificity / immunogenicity / expression	3	10候補を取得
7	Bispecific VHH	VHH	dual binding / thermostability / expression / polyreactivity	(明示なし)	二重標的VHHを設計
8	S. aureus vaccine antigen	vaccine	thermostability	1	Tm +2.5 °C
9	CRISPR system (on-target)	CRISPR	editing activity	3	<25% → 68%
10	CRISPR system (on/off-target)	CRISPR	on-target ↑ / off-target ↓	2	75% on-target
11	therapeutic peptides	peptide	potency / specificity / expression / thermostability	1	約50%成功率