【抗体デザイン】scFv reformatting の成否を予測するモデル

Improved Therapeutic Antibody Reformatting through Multimodal Machine Learning

IgG から scFv へ分子形を変換したときの物性変化を予測するモデルを提示した論文です。

IgG → scFv の分子形変換は、ときにその抗原結合活性を失ったり、発現不良になるリスクがあり、抗体開発加速化の妨げになります。分子形変換の成功のカギは CDR だけでなく、FRやリンカーの影響も大きいため、あらゆる可能性を効率的に探索できる必要があります。

筆者らは、IgG → scFv 変換の成否を予測するモデルを構築し、どのような特徴量やモデルのアーキテクチャを採用することで高精度の予測が可能か検証しています。BigHat Biosciences 所属の著者らが自身のデータセットを活用してモデルを構築しています。

データセット

対象：IgG → scFv 変換の実験結果
特徴量：
1. 配列情報 (sequence)：VH, VL配列、リンカー配列、ドメインの向き
2. 構造情報 (structure)：Boltz-2 で予測した IgG と scFv の構造を比較（RMSD や Cα 座標）
3. 生物物理的特徴 (biophysical)：疎水性、荷電分布などの CDR 領域指標（NaturalAntibody プラットフォームで計算）
データ規模：1,477ユニークな scFv シグネチャ、56 parental families、7キャンペーン
タスク：
1. 合成成功/失敗分類（QCラベル）
2. 収量回帰（ng/µL）
3. SEC (モノマー純度）

結果

単純な one-hot + ロジスティック回帰が、AbLang などの大規模 PLM を上回る成績
- Multimodal Linear Regression > PLM + MLP
- 1DCNNは、Linearより優位性なし
配列・構造・生物物理的特徴量を組み合わせると、明確に精度が向上
- RMSD 単独はほぼ無力
- 配列+構造の組み合わせが最もシナジーを発揮

抗原結合の維持に言及していないことや、どれくらい微細な変異効果を予測できるか（データセットにおける配列多様性）など不明な点は多く、また reformatting を効率化する設計手法は残された課題になります。