【抗体デザイン】抗体言語モデル AbLang の最新バージョン AbLang-2 が公開

論文タイトル

Addressing the antibody germline bias and its effect on language models for improved antibody design

出典

Addressing the antibody germline bias and its effect on language models for improved antibody design - PubMed
AbLang-2 is trained on both unpaired and paired data, and is freely available at

要旨

抗体用の言語モデルとして代表的な AbLang の新バージョン AbLang-2 を公開した論文です。

解説など

本モデル最大の改良意図は non-germline residue (NGL) を生成できるかにあります。既存の抗体言語モデルのほとんどは、BCR-seq から取得された配列を活用していて、これは naive なB細胞が主なソースになっています。すなわち SHM による成熟を受けた抗体配列の割合が比較的少ないデータセットを利用しています。naive B細胞にはほとんど NGL は存在せず、memory B細胞に~15.3個、抗体医薬品で~20.3個ほど存在することが知られています。したがって既存の言語モデルでは NGL の出現をほとんど軽視されていると考えられます。実際に筆者らは、以下の既存の言語モデルで NGL の出現頻度が極めて低いことを実例を用いて証明しています。

  • Sapiens
  • AntiBERTy
  • AbLang-1

すべてのアミノ酸が候補残基となる条件では、その perplexity は 1 に近づきますが、NGL のみに絞ると perplexity の値が大きく発散します。

そこで筆者らは、NGL を効率的に予測できる言語モデルの構築を試みました。一般に言語モデルの訓練バイアスを抑制する手法として、

  • 訓練時のマスク率を動的に変化させる
  • 損失関数として cross-entropy loss ではなく focal loss を採用する

といった方法が知られています。筆者らの構築した AbLang-2 でもこれらの方法を採用することで NGL を高頻度に発生させることに成功しました。

コードはこちらから参照できます。

GitHub - oxpig/AbLang2: An antibody-specific language model focusing on NGL prediction
An antibody-specific language model focusing on NGL prediction - oxpig/AbLang2