論文タイトル
Advancing Protein Design via Multi-Agent Reinforcement Learning with Pareto-Based Collaborative Optimization
出典

要旨
構造安定性と機能性という相反しやすい設計目標を同時に最適化するために、複数のタンパク質設計モデルを協調させるマルチエージェントフレームワーク「MAProt」を提案しています。
解説など
タンパク質設計では、
- 構造的に正しく折りたためること(フォールダビリティ)
- 望ましい機能を発揮すること(活性、結合能など)
の両立が重要ですが、これらはしばしばトレードオフの関係にあります。本研究は、この課題に対して 「1つのモデルで全部を解決しようとしない」 という立場を取り、役割の異なる複数モデルをエージェントとして協調させる枠組みを提案しています。
MAProt では、以下の3種類の事前学習モデルをエージェントとして利用しています。
- ProteinMPNN
- ESM
- SaProt
まず各エージェントは、実験データに基づく選好ペア(良い配列・悪い配列) を用いて Direct Preference Optimization(DPO) により個別に選好整合されます。
その後、本研究の中核である「パレート最適性に基づくマルチエージェント交渉・合意形成モジュール」が導入されます。
ここでは、
- 各エージェントが候補配列をどう評価しているか
- エージェント間で意見が一致しているか(コンセンサス)
- どれくらい衝突しているか(コンフリクト)
を定量化し、合意度(consensus score) の高い配列ペアを重視して学習が進められます。これにより、特定モデルの意見に引っ張られすぎない設計が可能になります。
論文では、以下のベンチマークで評価が行われています。
- Megascale(安定性設計、約180万変異体)
- GFP 機能最適化ベンチマーク
- 抗体親和性設計(AffinityDesign)
以下に示すような既存の手法に比べて、MAProtが優位に望みの配列を提案できることが示されています。
事前学習モデル(fine-tuning なし)
- ProteinMPNN
- ESM-IF
ガイダンス型生成手法
- CG(Classifier Guidance)
- CFG(Classifier-Free Guidance)
- SMC-based guidance
- TDS(Tempered Diffusion Sampling)
強化学習・報酬最適化系
- DRAKES
- ProteinDPO
本手法は、モデルのアンサンブルのように複数モデルの答えを平均・統合するだけではなく、価値観の衝突を明示的に扱い学習の方向自体を変える枠組みである点に特徴があります。
コードはこちら。


