論文タイトル
ProteinDJ: a high-performance and modular protein design pipeline
出典
Just a moment...
要旨
高性能計算環境(HPC)上で効率的に動作する新しいタンパク質設計パイプライン「ProteinDJ」を提案・実装した研究です。
解説など
既知ツールを統合したデザインパイプラインの報告です。過去には BinderFlow という実装について紹介しました。
今回紹介する ProteinDJ は、Nextflow を用いたポータブルなワークフロー管理と Apptainer コンテナによる依存関係管理で、HPC 上に容易に展開できることが特徴です。
モジュール構造を採用して、以下のような主要なツールが組み込まれています。
- RFdiffusion: フォールド(骨格)生成
- ProteinMPNN / Full-Atom MPNN (FAMPNN): 配列設計
- AlphaFold2 Initial Guess / Boltz-2: 構造予測・検証
- PyRosetta, Biopython: 物理化学的評価・解析
パイプライン構成
- Fold Design
RFdiffusion によるフォールド生成(モノマー、バインダー、モチーフスキャフォールディング、フォールド条件付き設計など多様なモードを実装)。 - Sequence Design
ProteinMPNN(通常版・Soluble版、FastRelax併用可)や FAMPNN による配列割り当て。 - Structure Prediction
AlphaFold2 Initial Guess または Boltz-2 による構造予測。必要に応じてトリミングせず標的全体を組み込み、誤設計を防止。 - Analysis & Reporting
PyRosetta によるバイオフィジカル指標(BSA, shape complementarity, ΔΔG など)算出。結果は CSV & PDB 出力で整理され、可視化や再利用が容易。
ProteinDJ には、Bindsweeper というパラメータスイープを自動化するツールが実装されています。これはホットスポット残基の選び方、生成時のノイズスケール、タイムステップ、temperature などのパラメータの最適な組み合わせを探索するための機能です。設計されたデザインは以下の基準で成否が判断され、最適なパラメータが選択されます。
AlphaFold2 Initial Guess を使う場合
- af2_max_rmsd_binder_bndaln ≤ 1Å
af2_max_pae_interaction ≤ 10 - af2_min_plddt_total ≥ 80
Boltz-2 を使う場合
- pTM スコア ≥ 閾値
- pLDDT(全体・インターフェース) ≥ 閾値
- RMSD(全体・バインダー・ターゲット) ≤ 閾値
- Predicted Distance Error (PDE) ≤ 閾値
コードはこちら。
GitHub - PapenfussLab/proteindj: Official repository for the ProteinDJ protein design pipeline
Official repository for the ProteinDJ protein design pipeline - PapenfussLab/proteindj


