【抗体】意外と少ない抗体特化のデコーダーモデル FAbCon について

論文タイトル

A generative foundation model for antibody sequence understanding

出典

要旨

抗体に特化したデコーダーモデル FAbCon を紹介した論文です。

解説など

本記事では、新しい抗体生成モデルを紹介します。FAbCon と命名された今回紹介するモデルは、ProGen などを代表例とするデコーダーで構成された transformer モデルです。抗体デザイン用途のデコーダーモデルは、ProGen を抗体配列のコーパスで学習した ProGen2-OAS が代表的です。ProGen2-OAS はモデルのパラメータサイズが 764 Mです。これに対して筆者らが構築したモデルは、以下の通り最大 2.4 B の非常に大きなものになります。

FAbCon-small (144 million parameters)
FAbCon-medium (297 million parameters)
FAbCon-large (2.4 billion parameters)

事前学習モデルのコーパスは主に OAS 由来の配列データを活用しています。 VH/VLペア (2.5 million) もしくは片鎖 (821.2 million) の配列データで構成されています。

筆者らはさらに既報のバインダーデータセットを用いて、バインダー２値分類タスクを解くためのファインチューニングモデルを構築しています。データセットは、HER2, SARS-CoV-2, IL-6 の３種で検証しています。

チューニングされたモデルは、area under the precision recall curve (AUPR) ベースで、ProGen2 やESM、IgBERT などの既報のモデルから訓練されたファインチューニングモデルより優れた予測成績を示しています。FAbCon-large 自体も比較的大規模なモデルですが、それよりも大きい ESM2-15B よりも優れた結果を示しているのが印象的です。多様なモデルをベンチマークに比較検証が行われていますが、全体的な傾向としてパラメータ数の大きいモデル、もしくは抗体に特化したモデルの方が優れた成績を示しており、双方を満たす FAbCon が最良というわかりやすい結果です。

筆者らは事前学習モデルから生成される配列の humanness や developability についても言及しています。humanness は OASis で評価し、developability は TAP と呼ばれる以下５つの物理化学的もしくは構造的な観点から developability と相関のある指標を基づいて評価しています。