論文タイトル
AI/ML combined with next-generation sequencing of VHH immune repertoires enables the rapid identification of de novo humanized and sequence-optimized single domain antibodies: a prospective case study
出典

要旨
VHH 取得に NGS データに基づく LSTM ベースの配列生成モデルを活用した実施例を紹介しています。
解説など
本論文では、独メルクの VHH取得 プラットフォームが紹介されています。タイトルには AI/ML や、”next-generation sequenceing”, “de novo” などインシリコ技術にフォーカスをあてた論文の印象を受けますが、実際にはシングルドメイン抗体 (sdAb) の取得プラットフォームについてライブラリデザインから物性評価まで幅広いケーススタディを公開しています。
筆者らの sdAb 取得プラットフォームをまとめると次のとおりになります。
- ライブラリ
- ラマ免疫後の HCDR3 を取得
- sequence liability(糖鎖付加配列など) を除去した synthetic HCDR1, HCDR2
- IGHV3-23*01ベースのヒト化 VHH フレームワーク
- パニング
- 酵母ディスプレイ
- 2ラウンド FACS ソーティング
- 配列解析
- Miseq
- Genious Biologics (IMGT numbering, 50% identity clustering)
- 配列頻度や Enrichment ratio でのクラスタ順位付け
- 生成モデル構築・配列生成
- LSTM
- 10,000配列生成
- インシリコ評価
- NLL score
- Sequence Assessment Using Multiple Optimization criteria (SUMO)
- 各クラスタから最大10配列を選抜
- ウェット評価
- コンストラクト:SEED技術(ヘテロ2量化技術)を活用した one-arm Fc
- 発現: ExpiCHO
- BLI
- SEC
- HIC
etc.
生成モデルは LSTM ベースのアーキテクチャーで、CDR1-3 を連結させた配列をゼロから訓練しています。入力配列はユニークでないため、NGS の frequency に応じて頻度の高い配列には重みをつけてモデルに供されるようです。Figure 2 では、対象となるクラスタに対してアミノ酸変異に対する frequency や enrichment ratio の変化を可視化していますが、明らかにすべてのバリアントスペースは探索できていないことが見て取れます。免疫ライブラリからクラスタリングを経たレパトアの限界が示唆されます。
プロセス自体に目立った新規性はありませんが、抗体取得のプロセスやケーススタディをここまでつまびらかに公開している論文も少なく貴重な情報であると感じます。特に多岐にわたる物性評価とインシリコ予測との相関に対する考察は充実しています。
コードも公開されていますので、ぜひご参照ください。