機械学習でナノボディの親和性成熟を高速化する新手法とは?

論文タイトル

Machine learning enables efficient and effective affinity maturation of nanobodies

出典

Just a moment...

要旨

単一ラウンドのシーケンスデータと機械学習を用いて、抗体(ナノボディ)の親和性成熟を効率化する手法が提案されています。特に線形モデルが有効であり、高親和性バインダーの設計に成功したと本文に記載があります。

解説など

本研究は、「抗体の親和性成熟(affinity maturation)」をどのように効率化できるか、という課題に取り組んでいます。

抗体は標的に強く結合するために最適化が必要ですが、従来は多数の実験ラウンド(FACSなど)を繰り返す必要があり、時間とコストがかかる点が問題でした。

本研究では、

  • 1回の選択ラウンド(MACS + FACS1)のシーケンスデータ
  • 機械学習モデル

を組み合わせることで、後続ラウンドで有利になる変異を予測できるかを検証しています。

従来は「最終ラウンドのデータ」を使うことが多かったのに対し、本研究は初期ラウンドのデータだけで予測する点が大きな特徴です。

実験・解析の流れは以下の通りです。

  • ナノボディに対してエラープローンPCR(ランダム変異導入)でライブラリ作成
  • Yeast display による選択(MACS + 複数FACS)
  • 各ラウンドでNGSシーケンス取得
  • 配列を one-hot encoding(アミノ酸をベクトル化)
  • 機械学習モデルで「エンリッチメント(濃縮度)」を予測

モデルとしては以下が比較されています:

  • 線形モデル(ロジスティック回帰・線形回帰)
  • CNN(畳み込みニューラルネット)
  • ESM2ベースの半教師ありモデル

また、以下の方法で有望改変を選抜しています。

① 実験ライブラリからの選抜

② モデルによる新規設計(Gibbs sampling)

本研究では、3つのナノボディが使われています:

① AT110:標的 = AT1R(アンジオテンシンII受容体)

② B7:標的 = β2AR(β2アドレナリン受容体)

③ RX002(主に詳細検証に使用):標的 = RXFP1(relaxin family peptide receptor 1)

結果

① 単一ラウンドのデータでも予測可能

FACS1のデータだけで、FACS2でのエンリッチメントを予測できることが示されています。

② 線形モデルが意外に強い

本文では、

  • ロジスティック回帰がCNNと同等またはそれ以上の性能
  • 特に単一変異のランキングで優れる

と記載されています。

理由としては下記が挙げられます。

  • データが「単一抗体周辺の局所探索」なので複雑な相互作用が少ない
  • L1正則化により重要な変異が明確になる

③ 単一変異の予測精度が高い

検証された有効変異を高順位にランク付けできることが示されています。

つまり、「どの1アミノ酸変異が効くか」をかなり正確に当てられる、ということです。

④ 実験的検証でも成功

RXFP1に結合するナノボディで検証した結果:

  • 11個中9個の変異で親和性向上
  • 7個は10倍以上改善
  • 最終的にサブナノモル(非常に高親和性)のバインダーを取得

と本文に記載があります。

⑤ 複数変異の設計も可能

さらに、

  • モデルスコアで既存配列を選抜
  • Gibbs samplingで新規配列を設計

することで、サブナノモル(0.18 nMなど)の高親和性バインダーを獲得 しています。