論文タイトル
PRIME: A Multi-Agent Environment for Orchestrating Dynamic Computational Workflows in Protein Engineerings
出典
Just a moment...
要旨
65種類以上の専門ツールを統合したタンパク質工学用のマルチエージェントシステム PRIME を提示した論文です。
解説など
バイオインフォマティクスに活用できるマルチエージェントシステムの紹介です。本ブログでは過去に「Virtual lab」について解説しました。
この記事で紹介するシステム「PRIME」は同様にマルチエージェントを利用して動的にワークフローを生成できるシステムです。エージェント構成は以下のとおりとなります。
- Query Parser
- ユーザの自然言語入力を構造化問題に変換
- 入出力データ形式を解析し、研究目的を明確化
- Plan Generator
- ツール間の依存関係を考慮し、DAG形式のワークフローを生成
- エラーや不適合があれば再計画
- Tool Executor
- 各ツールを実行し、パラメータ設定やデータ形式変換を担当
- 実行失敗時にローカル修正や再実行を行う
Virtual lab のように各専門性に対してエージェントを用意するのではなく、戦略(どのツールを使うか)と戦術(どう実行するか)に分けてエージェントが作成されるようです。
Tool Executor が活用するツールはライブラリとして用意され 65 種類あります。代表的なものを下記に記します。
- 知識ベース・データ取得
- UniProt
- PDB (Protein Data Bank)
- Pfam (ドメインデータベース)
- その他アノテーション系ツール
- 配列解析
- HMMER suite
- BLAST
- FoldSeek
- 配列モチーフ検索・変異導入ツール
- 構造予測
- AlphaFold2
- ESMFold
- ColabFold
- SaProtモデル
- デザイン・生成
- RFdiffusion
- DiffAb(抗体設計用diffusionモデル)
- ProteinMPNN
- EvoBind / ProTrek
- 構造評価・解析
- ΔΔG計算(Rosetta / PyRosetta)
- ΔSASA(Lee & Richards 1971)
- shape complementarity
- ipTM, pLDDT などのAlphaFold系スコア
- 機械学習支援
- SaProt fine-tuningツール
- SaProtHub(事前学習済みモデルライブラリ)
- 自動データセット構築(UniProtからのコーパス生成)
- 分類・回帰・相互作用予測・残基レベル予測用モジュール
本文では実施例として、タンパク質の局在分類と SARS-CoV-2の抗体設計に本手法を適用しています。
局在分類は、単純に「サブセルローカライゼーション分類器を作って」という自然言語による指示に基づいて実行され、自動でUniProt から 1,000件のラベル付き配列を収集してモデルが構築できることを確認しています。
抗体設計においては、DiffAbで抗体を設計し、ΔG、ΔSASA、形状相補性の観点から既知抗体を上回るデザインを取得しています。


