【抗体デザイン】結合活性とpLMの対数尤度スコアの相関性について

論文タイトル

Benchmarking Generative Models for Antibody Design & Exploring Log-Likelihood for Sequence Ranking

出典

Benchmarking Generative Models for Antibody Design & Exploring Log-Likelihood for Sequence Ranking
Generative models trained on antibody sequences and structures have shown great potential in advancing machine learning-assisted antibody engineering and drug d...

要旨

抗体の結合活性を予測する指標として、改めて尤度の重要性を示唆した論文の紹介です。

解説など

アストラゼネカからのレポートです。生成配列・構造モデルの評価基準として、AAR や RMSD、pAE、ipTM などが広く活用されていますが、結合活性と高く相関する指標は、これらよりも対数尤度(NLL)スコアであることを筆者らは示しています。この示唆はこれまでに公開された様々なデザインツールにおいて有効であるとのことです。

実際に筆者らは、以下の既存モデルに対して、対象の配列の対数尤度と結合活性の相関を解析しました。

  • MEAN
  • dyMEAN
  • IgBlend
  • AbLang
  • AbLang2
  • AntiBERTy
  • ESM
  • Antifold
  • ESM-IF
  • AbX
  • DiffAb
  • DiffAbXL

評価するための検証用データセットとしては、以下の実験で評価された結合データを活用しています。

  • Absci HER2 [Shanehsazzadeh et al.,2023]
    • HER2:トラスツズマブのリデザイン
  • Nature [Porebski et al., 2024]
    • HER2
    • HEL
    • IL7
  • AstraZeneca (AZ)
    • Target-1(非公開)
    • Target-2(非公開)

おおむね NLL と親和性は相関し、これは入力が(実験で決定されていない)構造モデルでもきちんと機能していることが確かめられています。一方で標的によっては、強い負の相関を示すものもあり、それは KD ではなく IC50(もしくは qAC50 )で示された実測データで起こるケースが多かったとのことです。NLL を絶対視するほどのインパクトはありませんが、いくつかの指標の中から選択するなら NLL が良いのでは、という提案に落ち着くと思います。

また筆者らは、DiffAb の参考にしたアーキテクチャで独自に訓練しなおした生成モデル DiffAbXLs を構築しています。このモデルの特徴は訓練データに合成データを利用していることです。具体的には OASから配列情報を取得し、ImmuneBuilder2 でモデリングしたおよそ150万の構造を訓練データに活用しています。モデルは2種類で、H3の生成に特化した DIffAbXL-H3 とCDR全領域の生成が可能なDIffAbXL-A があります。このモデルをオリジナルの DiffAb と比較したところ、NLL とさらに優れた相関が確認できたとのことです。

コードはこちらに公開されています。

GitHub - AstraZeneca/DiffAbXL: The official implementation of DiffAbXL benchmarked in the paper "Exploring Log-Likelihood Scores for Ranking Antibody Sequence Designs", formerly titled "Benchmarking Generative Models for Antibody Design".
The official implementation of DiffAbXL benchmarked in the paper "Exploring Log-Likelihood Scores for Ranking Antibody Sequence Designs", formerly tit...