【抗体デザイン】scFv reformatting の成否を予測するモデル

論文タイトル

Improved Therapeutic Antibody Reformatting through Multimodal Machine Learning

出典

Improved Therapeutic Antibody Reformatting through Multimodal Machine Learning
Modern therapeutic antibody design often involves composing multi-part assemblages of individual functional domains, each of which may be derived from a differe...

要旨

IgG から scFv へ分子形を変換したときの物性変化を予測するモデルを提示した論文です。

解説など

IgG → scFv の分子形変換は、ときにその抗原結合活性を失ったり、発現不良になるリスクがあり、抗体開発加速化の妨げになります。分子形変換の成功のカギは CDR だけでなく、FRやリンカーの影響も大きいため、あらゆる可能性を効率的に探索できる必要があります。

筆者らは、IgG → scFv 変換の成否を予測するモデルを構築し、どのような特徴量やモデルのアーキテクチャを採用することで高精度の予測が可能か検証しています。BigHat Biosciences 所属の著者らが自身のデータセットを活用してモデルを構築しています。

データセット

  • 対象:IgG → scFv 変換の実験結果
  • 特徴量:
    1. 配列情報 (sequence):VH, VL配列、リンカー配列、ドメインの向き
    2. 構造情報 (structure):Boltz-2 で予測した IgG と scFv の構造を比較(RMSD や Cα 座標)
    3. 生物物理的特徴 (biophysical):疎水性、荷電分布などの CDR 領域指標(NaturalAntibody プラットフォームで計算)
  • データ規模:1,477ユニークな scFv シグネチャ、56 parental families、7キャンペーン
  • タスク:
    1. 合成成功/失敗分類(QCラベル)
    2. 収量回帰(ng/µL)
    3. SEC (モノマー純度)

結果

  • 単純な one-hot + ロジスティック回帰が、AbLang などの大規模 PLM を上回る成績
    • Multimodal Linear Regression > PLM + MLP
    • 1DCNNは、Linearより優位性なし
  • 配列・構造・生物物理的特徴量を組み合わせると、明確に精度が向上
    • RMSD 単独はほぼ無力
    • 配列+構造の組み合わせが最もシナジーを発揮

抗原結合の維持に言及していないことや、どれくらい微細な変異効果を予測できるか(データセットにおける配列多様性)など不明な点は多く、また reformatting を効率化する設計手法は残された課題になります。