【タンパク質デザイン】GPUクラスタで並列計算ができるバインダーデザインパイプライン BinderFlow とは

Automated and modular protein binder design with BinderFlow

バインダーを効率的に設計するための、自動化・並列化されたパイプライン「BinderFlow」を提案した論文です。

従来のデノボバインダー設計は RFdiffusion → ProteinMPNN → AlphaFold2/AF2-IG 評価という流れが標準です。このワークフローをラッピングして、GPUクラスタ上で並列実行できるパイプラインの構築を報告したのがBinderFlowです。

ターゲット表面のホットスポットを指定
RFD.sh: RFdiffusion によるバックボーン生成
align_filtering.sh: 実験的に扱いにくい構造（長大ヘリックスや孤立ヘアピン）を自動フィルタリング
pMPNN.sh: ProteinMPNN による配列設計
scoring.sh: AlphaFold2-IG による複合体予測（pLDDT, PAE）、PyRosetta による形状補完性や未満足水素結合などの物理指標算出
スコアをCSVに保存し、BFmonitorで可視化
条件（例: pLDDT_binder > 80, PAE_interaction < 10）を満たすものをヒットと定義
必要なヒット数に達したら終了

→ 小規模バッチを並列に実行可能で、GPUが空いているタイミングにジョブを投げ込める。

本手法を、PDL1に対するバインダーデザインで活用したところ、24ヒット取得に必要な総時間は従来の線形処理のパイプラインでは12時間、BinderFlowでは14.2時間であったとのことです。これは、小規模バッチで処理するためAF2IGスコア計算時にオーバーヘッドがあることが原因とのことです。

ジョブを監視しながら適切なタイミング（必要な配列数が生成できるまで、など）で自動的に実行を止められたり、キューシステムでGPUが空くまでジョブを待機することができたりと利便性は高いと思います。

筆者らはBFmonitor というWebダッシュボートも開発しています。これには以下の機能が搭載されています。