【抗体モデル】最先端の構造予測モデル BALM について

論文タイトル

Accurate Prediction of Antibody Function and Structure Using Bio-Inspired Antibody Language Model

出典

Accurate Prediction of Antibody Function and Structure Using Bio-Inspired Antibody Language Model

In recent decades, antibodies have emerged as indispensable therapeutics for combating diseases, particularly viral infections. However, their development has b...

要旨

抗体の物性・構造予測モデルのベンチマークです。Bio-inspired Antibody Language Model (BALM) と呼ばれる構造予測モデルについて、紹介しています。

解説など

毎月のように “State-of-the-Art” を主張する論文報告がある、抗体構造予測の深層学習モデル。今回は BALM と呼ぶモデルについて紹介します。アーキテクチャの概念図は原著の図１に示されています。大規模言語モデルと構造予測レイヤが連結された構造のモデルです。

筆者らは、本モデルの特徴として、”Bio-Inspired” つまり抗体のドメイン知識を考慮していることを強く主張しています。それを踏まえて、ここからはモデルの詳細について解説していきます。

モデルは、以下の３層で構成されています。

言語モデル

BALM

構造予測コンポーネント

BAformer
Structure Module

BALMは、self-attention メカニズムを有する transformer ベースのモデルです。150 million のパラメータを有しています。訓練データは OAS 由来の 336 million の抗体配列です。LinClust でクラスタリングしたのちに 40 % 以上のアイデンティティがある配列を選抜しています。

構造予測コンポーネントでは、SAbDab の登録されている 3 オングストローム以下の解像度を有する 2,371 の Fab と 805 の scFv を訓練データに用いています。この要素には BAformer と Structure Module の２つが利用されています。BAformer は、抗体の単一残基または２残基間の関係性を抽出するためのモジュールで、Structure Module は、回転や並進などの３次元上の特徴を抽出するためのモジュールになります。

抗体のドメイン知識を取り込むために、ポジショナルエンコーディング時の ID は、ANARCI で変換した IMGT のナンバリングスキームを活用しています。

このようなアーキテクチャを、以下の指標を含む損失関数で学習していきます。