【抗体モデル】最先端の構造予測モデル BALM について

論文タイトル

Accurate Prediction of Antibody Function and Structure Using Bio-Inspired Antibody Language Model

出典

Accurate Prediction of Antibody Function and Structure Using Bio-Inspired Antibody Language Model
In recent decades, antibodies have emerged as indispensable therapeutics for combating diseases, particularly viral infections. However, their development has b...

要旨

抗体の物性・構造予測モデルのベンチマークです。Bio-inspired Antibody Language Model (BALM) と呼ばれる構造予測モデルについて、紹介しています。

解説など

毎月のように “State-of-the-Art” を主張する論文報告がある、抗体構造予測の深層学習モデル。今回は BALM と呼ぶモデルについて紹介します。アーキテクチャの概念図は原著の図1に示されています。大規模言語モデルと構造予測レイヤが連結された構造のモデルです。

筆者らは、本モデルの特徴として、”Bio-Inspired” つまり抗体のドメイン知識を考慮していることを強く主張しています。それを踏まえて、ここからはモデルの詳細について解説していきます。

モデルは、以下の3層で構成されています。

言語モデル
  • BALM
構造予測コンポーネント
  • BAformer
  • Structure Module

BALMは、self-attention メカニズムを有する transformer ベースのモデルです。150 million のパラメータを有しています。訓練データは OAS 由来の 336 million の抗体配列です。LinClust でクラスタリングしたのちに 40 % 以上のアイデンティティがある配列を選抜しています。

構造予測コンポーネントでは、SAbDab の登録されている 3 オングストローム以下の解像度を有する 2,371 の Fab と 805 の scFv を訓練データに用いています。この要素には BAformer と Structure Module の2つが利用されています。BAformer は、抗体の単一残基または2残基間の関係性を抽出するためのモジュールで、Structure Module は、回転や並進などの3次元上の特徴を抽出するためのモジュールになります。

抗体のドメイン知識を取り込むために、ポジショナルエンコーディング時の ID は、ANARCI で変換した IMGT のナンバリングスキームを活用しています。

このようなアーキテクチャを、以下の指標を含む損失関数で学習していきます。

  • frame aligned point error (FAPE)
  • distogram loss
  • confidence loss
  • structure violation loss

訓練された予測モデルは、以下のような既報のモデルと比較し、最高成績を示していることが主張されています。

言語モデル
  • AntiBERTy
  • AbLang
  • EATLM
  • ESM-2
  • ESM-1b
構造予測モデル
  • AlphaFold2-Multimer
  • IgFOld
  • ESMFold
  • OmegaFold

詳細は割愛しますが、かなり多方面からモデルの特徴を解析しているのが印象的です。解析結果だけでも相当読み応えがあります。