【バインダーデザイン】HPC で効率的にタンパク質を設計できるデザインパイプライン ProteinDJ を紹介

論文タイトル

ProteinDJ: a high-performance and modular protein design pipeline

出典

Just a moment...

要旨

高性能計算環境(HPC)上で効率的に動作する新しいタンパク質設計パイプライン「ProteinDJ」を提案・実装した研究です。

解説など

既知ツールを統合したデザインパイプラインの報告です。過去には BinderFlow という実装について紹介しました。

今回紹介する ProteinDJ は、Nextflow を用いたポータブルなワークフロー管理と Apptainer コンテナによる依存関係管理で、HPC 上に容易に展開できることが特徴です。

モジュール構造を採用して、以下のような主要なツールが組み込まれています。

  • RFdiffusion: フォールド(骨格)生成
  • ProteinMPNN / Full-Atom MPNN (FAMPNN): 配列設計
  • AlphaFold2 Initial Guess / Boltz-2: 構造予測・検証
  • PyRosetta, Biopython: 物理化学的評価・解析

パイプライン構成

  1. Fold Design
    RFdiffusion によるフォールド生成(モノマー、バインダー、モチーフスキャフォールディング、フォールド条件付き設計など多様なモードを実装)。
  2. Sequence Design
    ProteinMPNN(通常版・Soluble版、FastRelax併用可)や FAMPNN による配列割り当て。
  3. Structure Prediction
    AlphaFold2 Initial Guess または Boltz-2 による構造予測。必要に応じてトリミングせず標的全体を組み込み、誤設計を防止。
  4. Analysis & Reporting
    PyRosetta によるバイオフィジカル指標(BSA, shape complementarity, ΔΔG など)算出。結果は CSV & PDB 出力で整理され、可視化や再利用が容易。

ProteinDJ には、Bindsweeper というパラメータスイープを自動化するツールが実装されています。これはホットスポット残基の選び方、生成時のノイズスケール、タイムステップ、temperature などのパラメータの最適な組み合わせを探索するための機能です。設計されたデザインは以下の基準で成否が判断され、最適なパラメータが選択されます。

AlphaFold2 Initial Guess を使う場合
  • af2_max_rmsd_binder_bndaln ≤ 1Å
    af2_max_pae_interaction ≤ 10
  • af2_min_plddt_total ≥ 80
Boltz-2 を使う場合
  • pTM スコア ≥ 閾値
  • pLDDT(全体・インターフェース) ≥ 閾値
  • RMSD(全体・バインダー・ターゲット) ≤ 閾値
  • Predicted Distance Error (PDE) ≤ 閾値

コードはこちら。

GitHub - PapenfussLab/proteindj: Official repository for the ProteinDJ protein design pipeline
Official repository for the ProteinDJ protein design pipeline - PapenfussLab/proteindj