マルチエージェントとパレート最適化で挑む、構造と機能を両立するタンパク質設計

Advancing Protein Design via Multi-Agent Reinforcement Learning with Pareto-Based Collaborative Optimization

構造安定性と機能性という相反しやすい設計目標を同時に最適化するために、複数のタンパク質設計モデルを協調させるマルチエージェントフレームワーク「MAProt」を提案しています。

タンパク質設計では、

の両立が重要ですが、これらはしばしばトレードオフの関係にあります。本研究は、この課題に対して「1つのモデルで全部を解決しようとしない」という立場を取り、役割の異なる複数モデルをエージェントとして協調させる枠組みを提案しています。

MAProt では、以下の3種類の事前学習モデルをエージェントとして利用しています。

まず各エージェントは、実験データに基づく選好ペア（良い配列・悪い配列）を用いて Direct Preference Optimization（DPO）により個別に選好整合されます。

その後、本研究の中核である「パレート最適性に基づくマルチエージェント交渉・合意形成モジュール」が導入されます。

ここでは、

を定量化し、合意度（consensus score）の高い配列ペアを重視して学習が進められます。これにより、特定モデルの意見に引っ張られすぎない設計が可能になります。

論文では、以下のベンチマークで評価が行われています。

以下に示すような既存の手法に比べて、MAProtが優位に望みの配列を提案できることが示されています。

事前学習モデル（fine-tuning なし）

ガイダンス型生成手法

強化学習・報酬最適化系

本手法は、モデルのアンサンブルのように複数モデルの答えを平均・統合するだけではなく、価値観の衝突を明示的に扱い学習の方向自体を変える枠組みである点に特徴があります。

コードはこちら。