論文タイトル
Prediction of Antibody Non-Specificity using Protein Language Models and Biophysical Parameters
出典
Just a moment...
要旨
抗体の抗原非特異結合性を予測する機械学習モデルの構築を報告した論文です。
解説など
デンマークの製薬企業 Novo Nordisk からのレポートです。本論文では抗体の非特異結合を配列情報から予測するモデルを構築し、どのような物理化学的なプロファイルが非特異結合に寄与するか分析しています。
方法論や解析結果に大きな独自性はありません。複数のデータセットを対象に解析を試みているため、類似の目的で解析を行う際に、データセットの引用やキュレーションの方法において参考になる論文です。
非特異結合の予測モデルは次の条件で構築されました。
- データセット
- Boughter dataset:mouse IgA, HIV-1 neutralizing, Influenza reactive
- Jain dataset:clinical stage IgG1
- Shehata dataset:naive IgG
- Harvey dataset: nanobody
- 特徴量化
- PLM based
- ESM1v
- ESM1b
- ESM2
- ANtiBERTy
- Protbert_bfd
- AbLang2
- Descriptor based
- 以下のような特徴を例とする 68 種のディスクリプターを選抜
- isoelectric point
- secondary structure propensity
- hydrophobicity
- ディスクリプター間の相関性をもとに冗長性を削減した25種を選抜
- 以下のような特徴を例とする 68 種のディスクリプターを選抜
- PLM based
- モデル
- LogisticReg
- RandomForest
- Gaussian RBF
- XGBoost
データセットの各配列には、ELISAもしくはPSRアッセイで取得された非特異結合性を示すラベルが付与されていて、それをもとに非特異性を予測するモデルを作成しています。
結果の概要は次のとおりです。
- エンベディング法やモデルのアーキテクチャで予測性能に大きな差はなし
- およそ 70% 程度の予測精度
- 各ディスクリプターの中では pI が非特異結合と良い相関を示す
印象深かったのは、以下2点でした。
- 配列全長よりもVH情報を単独で扱った方が良い成績だった
- ELISAとPSRアッセイのデータで一部相関性の低さが示唆された