400万抗体で検証! FLAb2ベンチマークの結果について

Articles

2026.03.14

論文タイトル

Fitness Landscape for Antibodies 2: Benchmarking Reveals That Protein AI Models Cannot Yet Consistently Predict Developability Properties

出典

Just a moment...

要旨

本研究では、治療用抗体の「開発しやすさ（developability）」を予測するAIモデルの性能を、大規模ベンチマークFLAb2を用いて体系的に評価しています。

解説など

本研究では、治療用抗体の結合親和性、熱安定、免疫原性など様々な開発特性を既存の予測AIがどこまで予測できるのかを調べるため、Fitness Landscape for Antibodies 2（FLAb2）という大規模ベンチマークを構築しました。

データセット

FLAb2には、32研究・400万以上の抗体配列と、以下の7種類の開発特性データが含まれています。

熱安定性（thermostability）
発現量（expression）
凝集性（aggregation）
抗原結合親和性（binding affinity）
薬物動態（pharmacokinetics）
多反応性（polyreactivity）
免疫原性（immunogenicity）

多くは実験論文から収集された実測データです。

評価したモデル

以下を含む30種類のモデルを比較しています。

抗体特化・汎用タンパク質言語モデル：ProGen2, AntiBERTy, ESM2 etc.
構造予測モデル：IgFold, Chai-1 etc.
逆フォールディングモデル：ProteinMPNN, AbMPNN etc.
物理ベースモデル：PyRosetta、電荷計算 etc.

評価方法

zero-shot 評価：事前学習済みモデルの「perplexity（尤度）」と実験値の相関を評価
few-shot 評価：モデル埋め込みを使い、少量の実験データで回帰モデルを学習

結果

zero-shot 予測の結果

全体として、約80%のデータセットで統計的に有意な相関が得られていません。
すべての開発特性を一貫して予測できるモデルは存在しませんでした。
熱安定性や発現量などの内在的特性は比較的予測しやすく、免疫原性や薬物動態などの外在的特性は予測が困難でした。

few-shot 学習の効果

データ数が10²〜10³点以上ある場合、fine-tuningにより性能は改善します。
ただし、巨大な事前学習モデルでなくても、one-hotエンコーディング＋回帰モデルが同等性能を示す場合があるとのことです。
多くの言語モデルは、実際の開発特性ではなく「germlineからどれだけ離れているか」に強く依存していることが示されました。

結果からは、現在のタンパク質AIモデルが物理法則そのものを理解しているというよりも、進化的・統計的な類似性（特にgermline）を利用している可能性が示唆されます。今後は、構造情報、物理モデル、実験フィードバックを統合した手法が重要になると考えられます。

プログラムコード

GitHub - Graylab/FLAb: Fitness landscapes for antibodies

Fitness landscapes for antibodies. Contribute to Graylab/FLAb development by creating an account on GitHub.