論文タイトル
Ovo, an Open-Source Ecosystem for De Novo Protein Design
出典

要旨
Ovo という、RFdiffusion 時代の de novo タンパク質設計を「個人芸」から「再現可能な工学プロセス」へ昇格させるための実践的オープンソース基盤を提示した論文です。
解説など
筆者らは、de novo タンパク質設計を、再現可能・大規模・協調的に回せる“エコシステム”を作る、という発想で、RFdiffusion / ProteinMPNN / AlphaFold2 / BindCraft などの複数モデルをスケーラブルに接続するパイプライン Ovo を開発しました。
Ovoは4つの要素から構成されます。
(1) Nextflow ベースのワークフロー
- 各種デザインモデルを Nextflow で接続 → HPC / クラウド / ローカルを問わずスケール可能
(2) データ管理レイヤ(DB + Storage)
- すべての設計に 一意な ID を付与
- 設計条件・スコア・構造・QC指標を SQL DB に保存
(3) Web UI + CLI + Python API
- 非エンジニアでも
- ステップ形式でジョブ投入
- 構造を Mol* で可視化
- スコア分布を見ながらフィルタリング
- パワーユーザーは
- CLI / Python API で Jupyter 解析
(4) Plugin アーキテクチャ
- 新しい設計法・QC法・可視化を plugin として追加可能
- ProteinDJ や Promb(humanness評価)を実例として統合
- 「共有基盤上でコミュニティが進化」を狙う
類似するタンパク質デザインの統合パイプラインに ProteinDJ や TRILL があります。
ProteinDJ は Ovo と同じくNextflowでバッチを並列化する仕様で、設計のパラメータ自動探索が可能という独自の特徴はありますが、Ovo は設計IDを付与してデータ管理できる点に強みがあります。
また TRILLもツールを中央集約する思想で構築されたパイプラインですが、TRILLは単一の Python 環境に依存するため、拡張性の制約があります。一方 Ovo は、以下のような3つのレイヤで環境を分離します。
- Conda 環境(デフォルト)
- コンテナ (Docker / Singularity / Apptainer)
- スケジューラ分離 (GPU/CPU)
Ovo に組み込まれている具体的なワークフローは次のとおりです。
- RFdiffusion
- ProteinMPNN / LigandMPNN
- PyRosetta FastRelax / ddG
- AlphaFold2(monomer / multimer / initial guess)
- ESMFold
Ovo にはこれら外部ツールだけではなく、ProteinQC という設計タンパク質のQCを行うモジュールが実装されています。主な指標は下記にお示しします。これらのラベルが各デザインに付与されデータベースで管理されます。
- 安定性 proxy
- Sequence entropy
- ESM-1v likelihood
- ESM-IF likelihood
- 発現・溶解性
- ProteinSol
- hydrophobic patch 面積
- 電荷分布
- 構造幾何
- DSSP
- radius of gyration
- asphericity
実装はこちら。



