【タンパク質デザイン】GPUクラスタで並列計算ができるバインダーデザインパイプライン BinderFlow とは

論文タイトル

Automated and modular protein binder design with BinderFlow

出典

Just a moment...

要旨

バインダーを効率的に設計するための、自動化・並列化されたパイプライン「BinderFlow」を提案した論文です。

解説など

従来のデノボバインダー設計は RFdiffusion → ProteinMPNN → AlphaFold2/AF2-IG 評価という流れが標準です。このワークフローをラッピングして、GPUクラスタ上で並列実行できるパイプラインの構築を報告したのがBinderFlowです。

BinderFlow のワークフロー

  1. ターゲット表面のホットスポットを指定
  2. RFD.sh: RFdiffusion によるバックボーン生成
  3. align_filtering.sh: 実験的に扱いにくい構造(長大ヘリックスや孤立ヘアピン)を自動フィルタリング
  4. pMPNN.sh: ProteinMPNN による配列設計
  5. scoring.sh: AlphaFold2-IG による複合体予測(pLDDT, PAE)、PyRosetta による形状補完性や未満足水素結合などの物理指標算出
  6. スコアをCSVに保存し、BFmonitorで可視化
  7. 条件(例: pLDDT_binder > 80, PAE_interaction < 10)を満たすものを ヒット と定義
  8. 必要なヒット数に達したら終了

→ 小規模バッチを並列に実行可能で、GPUが空いているタイミングにジョブを投げ込める。

本手法を、PDL1に対するバインダーデザインで活用したところ、24ヒット取得に必要な総時間は従来の線形処理のパイプラインでは12時間、BinderFlowでは14.2時間であったとのことです。これは、小規模バッチで処理するためAF2IGスコア計算時にオーバーヘッドがあることが原因とのことです。

ジョブを監視しながら適切なタイミング(必要な配列数が生成できるまで、など)で自動的に実行を止められたり、キューシステムでGPUが空くまでジョブを待機することができたりと利便性は高いと思います。

筆者らはBFmonitor というWebダッシュボートも開発しています。これには以下の機能が搭載されています。

  • Live Watcher: スコアをリアルタイムで散布図やレーダープロットに可視化
  • Pipeline tracking: 各ジョブの進捗を監視
  • Extraction: 3Dビューアで設計構造を確認、FASTA/PDB出力、DNA配列への逆翻訳(CodonTransformer利用)まで対応

コードはこちら。

GitHub - cryoEM-CNIO/BinderFlow: Code for running BinderFlow
Code for running BinderFlow. Contribute to cryoEM-CNIO/BinderFlow development by creating an account on GitHub.