論文タイトル
A generative foundation model for antibody sequence understanding
出典
要旨
抗体に特化したデコーダーモデル FAbCon を紹介した論文です。
解説など
本記事では、新しい抗体生成モデルを紹介します。FAbCon と命名された今回紹介するモデルは、ProGen などを代表例とするデコーダーで構成された transformer モデルです。抗体デザイン用途のデコーダーモデルは、ProGen を抗体配列のコーパスで学習した ProGen2-OAS が代表的です。ProGen2-OAS はモデルのパラメータサイズが 764 Mです。これに対して筆者らが構築したモデルは、以下の通り最大 2.4 B の非常に大きなものになります。
- FAbCon-small (144 million parameters)
- FAbCon-medium (297 million parameters)
- FAbCon-large (2.4 billion parameters)
事前学習モデルのコーパスは主に OAS 由来の配列データを活用しています。 VH/VLペア (2.5 million) もしくは片鎖 (821.2 million) の配列データで構成されています。
筆者らはさらに既報のバインダーデータセットを用いて、バインダー2値分類タスクを解くためのファインチューニングモデルを構築しています。データセットは、HER2, SARS-CoV-2, IL-6 の3種で検証しています。
チューニングされたモデルは、area under the precision recall curve (AUPR) ベースで、ProGen2 やESM、IgBERT などの既報のモデルから訓練されたファインチューニングモデルより優れた予測成績を示しています。FAbCon-large 自体も比較的大規模なモデルですが、それよりも大きい ESM2-15B よりも優れた結果を示しているのが印象的です。多様なモデルをベンチマークに比較検証が行われていますが、全体的な傾向としてパラメータ数の大きいモデル、もしくは抗体に特化したモデルの方が優れた成績を示しており、双方を満たす FAbCon が最良というわかりやすい結果です。
筆者らは事前学習モデルから生成される配列の humanness や developability についても言及しています。humanness は OASis で評価し、developability は TAP と呼ばれる 以下5つの物理化学的もしくは構造的な観点から developability と相関のある指標を基づいて評価しています。
- CDR length
- CDR vicinity patches of surface hydrophobicity (PSH)
- CDR vicinity patches of positive charge (PPC)
- CDR vicinity patches of gegative charge (PNC)
- variable fragment charge symmetry parameter (FvCSP)
OASis, TAP いずれの指標も FAbCon で生成した配列がほかのモデルに比べて最も優れた値を示しています。これは事前学習モデルのコーパスがヒト配列に限定しているためであると考えられます。
モデルは Hugging Face で公開されています。
