【抗体】Novo Nordisk の抗体非特異結合予測 MLアプローチを紹介

Prediction of Antibody Non-Specificity using Protein Language Models and Biophysical Parameters

抗体の抗原非特異結合性を予測する機械学習モデルの構築を報告した論文です。

デンマークの製薬企業 Novo Nordisk からのレポートです。本論文では抗体の非特異結合を配列情報から予測するモデルを構築し、どのような物理化学的なプロファイルが非特異結合に寄与するか分析しています。

方法論や解析結果に大きな独自性はありません。複数のデータセットを対象に解析を試みているため、類似の目的で解析を行う際に、データセットの引用やキュレーションの方法において参考になる論文です。

非特異結合の予測モデルは次の条件で構築されました。

データセット
- Boughter dataset：mouse IgA, HIV-1 neutralizing, Influenza reactive
- Jain dataset：clinical stage IgG1
- Shehata dataset：naive IgG
- Harvey dataset： nanobody
特徴量化
- PLM based
  - ESM1v
  - ESM1b
  - ESM2
  - ANtiBERTy
  - Protbert_bfd
  - AbLang2
- Descriptor based
  - 以下のような特徴を例とする 68 種のディスクリプターを選抜
    - isoelectric point
    - secondary structure propensity
    - hydrophobicity
  - ディスクリプター間の相関性をもとに冗長性を削減した25種を選抜
モデル
- LogisticReg
- RandomForest
- Gaussian RBF
- XGBoost