タンパク質設計における「本当に使えるベンチマーク」とは？FLIP2が示す現実的な課題

Articles

2026.06.11

論文タイトル

FLIP2: Expanding Protein Fitness Landscape Benchmarks for Real-World Machine Learning Applications

出典

Just a moment...

要旨

タンパク質配列から機能（フィットネス）を予測する機械学習モデルの実用性を検証するために、より現実的な条件を反映した新しいベンチマーク「FLIP2」が提案されました。本文では、従来手法の限界とともに、単純なモデルが高性能モデルに匹敵するケースがあることが示されています。

解説など

本研究では、「タンパク質配列から機能（フィットネス）を予測する機械学習モデルは、実際のタンパク質工学でどれくらい役に立つのか？」という疑問に答えるために拡張したベンチマークを構築しています。従来のFLIPベンチマークでは、熱安定性や結合、ウイルスキャプシドの生存性など限られたタスクしか扱っていませんでしたが、本研究ではより実用的なシナリオを反映した「FLIP2」が提案されています。

Just a moment...

① データセットの拡張

FLIP2では、合計7種類の新しいデータセットが追加されています。本文には以下のような例が記載されています。

酵素：Amylase（データ数：3,706）, IRED（17,143）, NucB（55,760）, TrpB（228,298）
光応答タンパク質：Rhomax（884）
安定性：Hydro（24,935）
タンパク質間相互作用：PDZ3（200,000）

これにより、従来よりも幅広い生物学的機能をカバーしています。

② 「現実的な一般化」を評価する分割方法

FLIP2の特徴は、単なるランダム分割ではなく、実際のタンパク質工学に近い条件を再現した点です。本文では以下の5種類の分割が説明されています。

Number：少ない変異で学習し、多い変異に外挿
Position：未知の変異位置に対する予測
Mutation：未観測の変異タイプに対する予測
Fitness：低機能→高機能への予測
Wild type：異なるタンパク質背景への一般化

特に「wild type」や「position」は、実験現場で重要な難しい課題とされています。

③ 評価したモデル

本文では以下のモデル群が比較されています。

ゼロショット予測（学習なしの言語モデル）
- Dayhoff：自己回帰モデル
- CARP：CNN
- ESM2 ：Transformer
線形モデル（リッジ回帰）
- one-hot表現（アミノ酸をベクトル化）
ファインチューニングしたタンパク質言語モデル
- CARP
- ESMC：ESMを下流タスク向けに軽量化

④ 評価指標

評価指標としては、順位の正しさを見る

Spearman相関（順位相関）
NDCG（上位ランキング重視の指標）
が使われています。

本文に記載された重要な結果は次の通りです。

単純な線形モデルが、ファインチューニングした大規模モデルと同等またはそれ以上の性能を示す場合があった
特に難しい設定（wild-typeや位置外挿）では、どのモデルも性能が低下
ゼロショット予測は「同一タンパク質内の変異」では有効だが、異なるタンパク質間では性能が落ちる
ファインチューニングは必ずしも性能改善につながらず、むしろ悪化するケースもあった

また本文には、「16個のタスクのうち、最も良いモデルは以下のように分散していた」と記載があります。

ゼロショット：6タスク
線形モデル：4タスク
ファインチューニングpLM：4タスク
単純な教師ありpLM：2タスク

つまり、「どの手法が常に最強」というわけではないようです。

データ分割まで踏み込んだ点が本論文の特徴だと感じます。Wild type（タンパク質種）や Position（位置）の外挿が難しいのは直感と相違ない結果です。