タンパク質拡散モデルの「構造」と「性質」は同時に最適化されない？──DPOによるダイナミクス分解と崩壊メカニズム

論文タイトル

Decoupling Structure and Property in Discrete Protein Diffusion: Alignment Dynamics and Collapse Mechanisms

出典

要旨

タンパク質配列生成における離散拡散モデルとDPO最適化の挙動を解析し、「構造」と「物性」が時間的に分離して最適化されることを示した研究です。

解説など

本研究は、「タンパク質生成モデルで構造と機能（物性）は同時に最適化されるのか？」という根本的な疑問に取り組んでいます。従来は、両者を同時に満たすために複雑な報酬設計や強化学習が必要と考えられてきましたが、本論文はその前提に疑問を投げかけています。

筆者らは、離散拡散モデル（アミノ酸配列を直接生成するタイプの拡散モデル）に対して、DPO（Direct Preference Optimization：ペア比較でモデルを調整する手法）を適用し、抗体配列生成における最適化の「時間的な挙動（ダイナミクス）」を詳細に解析しています。特に以下を明らかにすることが目的です：

構造（foldability）と物性（溶解性・電荷など）はどう変化するか
両者は同時に改善されるのか
最適化を続けると何が起こるのか

方法

1. モデルとデータ

離散拡散モデル（マスク付きトークンの逐次復元）
約20,450件のナノボディ配列で事前学習

2. アラインメント手法

DPOを適用（報酬モデルを明示的に作らない手法）

3. 工夫：Synchronized Masking

同じマスクをペアに適用
→ ノイズの違いではなく「配列の質の差」だけを学習できるようにする

4. 評価指標

構造：pLDDT（構造の信頼度）
物性：
- GRAVY（疎水性の指標）
- 電荷・等電点（pI）

5. 実験設定

3つの条件を比較：

構造のみ最適化（ベースライン）
溶解性（GRAVY）最適化
負電荷（pI）最適化（対照実験）

結果

① 構造はすぐ整う（Instant Structural Alignment）

わずか数エポックで構造が急速に改善
例：pLDDTの最小値が24.5 → 65.4に改善（Epoch 3）

拡散モデルの事前学習が強い「構造バイアス」を持っていることを示唆

② 物性はゆっくり最適化される（Slow Property Adaptation）

溶解性などは長い時間をかけて徐々に改善
構造とは異なる時間スケールで進む

③ パレート最適点が存在（Epoch ≈ 50）

構造と物性のバランスが最も良い領域
この時点では構造は安定かつ物性も改善

④ その先で「崩壊」が起きる（Structural Collapse）

さらに最適化を続けると構造が急激に崩壊
例： pLDDTが80→33程度まで低下

原因は「報酬ハッキング（Goodhart’s Law）」です。

■ 崩壊のメカニズム

ケース1：溶解性最適化

アルギニン（R）が大量増加 → 正電荷だらけ（pI > 11）

ケース2：負電荷最適化

アスパラギン酸（D）が大量増加 → 負電荷だらけ（pI < 4.5）

両者とも最終的にクーロン反発により構造が崩壊

事前学習された拡散モデルは強い「構造バイアス」を持っているため、すぐに最適化されるということと、機能最適化は最適化が極端な方向に行き過ぎることがないように、目標値の設定や多目的同時最適化が必要である、という点が重要なポイントだと思います。