【タンパク質デザイン】デノボデザインの統合パイプライン Ovo の構想とは

論文タイトル

Ovo, an Open-Source Ecosystem for De Novo Protein Design

出典

Ovo, an Open-Source Ecosystem for De Novo Protein Design
The protein design field is rapidly advancing, with frequent emergence of new models and pipelines for designing de novo proteins with tailored properties and f...

要旨

Ovo という、RFdiffusion 時代の de novo タンパク質設計を「個人芸」から「再現可能な工学プロセス」へ昇格させるための実践的オープンソース基盤を提示した論文です。

解説など

筆者らは、de novo タンパク質設計を、再現可能・大規模・協調的に回せる“エコシステム”を作る、という発想で、RFdiffusion / ProteinMPNN / AlphaFold2 / BindCraft などの複数モデルをスケーラブルに接続するパイプライン Ovo を開発しました。

Ovoは4つの要素から構成されます。

(1) Nextflow ベースのワークフロー

  • 各種デザインモデルを Nextflow で接続 →  HPC / クラウド / ローカルを問わずスケール可能

(2) データ管理レイヤ(DB + Storage)

  • すべての設計に 一意な ID を付与
  • 設計条件・スコア・構造・QC指標を SQL DB に保存

(3) Web UI + CLI + Python API

  • 非エンジニアでも
    • ステップ形式でジョブ投入
    • 構造を Mol* で可視化
    • スコア分布を見ながらフィルタリング
  • パワーユーザーは
    • CLI / Python API で Jupyter 解析

(4) Plugin アーキテクチャ

  • 新しい設計法・QC法・可視化を plugin として追加可能
  • ProteinDJ や Promb(humanness評価)を実例として統合
  • 「共有基盤上でコミュニティが進化」を狙う

類似するタンパク質デザインの統合パイプラインに ProteinDJ や TRILL があります。

ProteinDJ は Ovo と同じくNextflowでバッチを並列化する仕様で、設計のパラメータ自動探索が可能という独自の特徴はありますが、Ovo は設計IDを付与してデータ管理できる点に強みがあります。

また TRILLもツールを中央集約する思想で構築されたパイプラインですが、TRILLは単一の Python 環境に依存するため、拡張性の制約があります。一方 Ovo は、以下のような3つのレイヤで環境を分離します。

  1. Conda 環境(デフォルト)
  2. コンテナ (Docker / Singularity / Apptainer)
  3. スケジューラ分離 (GPU/CPU)

Ovo に組み込まれている具体的なワークフローは次のとおりです。

  • RFdiffusion
  • ProteinMPNN / LigandMPNN
  • PyRosetta FastRelax / ddG
  • AlphaFold2(monomer / multimer / initial guess)
  • ESMFold

Ovo にはこれら外部ツールだけではなく、ProteinQC という設計タンパク質のQCを行うモジュールが実装されています。主な指標は下記にお示しします。これらのラベルが各デザインに付与されデータベースで管理されます。

  • 安定性 proxy
    • Sequence entropy
    • ESM-1v likelihood
    • ESM-IF likelihood
  • 発現・溶解性
    • ProteinSol
    • hydrophobic patch 面積
    • 電荷分布
  • 構造幾何
    • DSSP
    • radius of gyration
    • asphericity

実装はこちら。

GitHub - MSDLLCpapers/ovo: OVO, an open-source ecosystem for de novo protein design
OVO, an open-source ecosystem for de novo protein design - MSDLLCpapers/ovo