【タンパク質デザイン】全原子生成モデル BlotzGen でバインダーを設計

Articles

2025.12.31

論文タイトル

BoltzGen: Toward Universal Binder Design

出典

BoltzGen: Toward Universal Binder Design – MIT Jameel Clinic

要旨

あらゆる種類の生体分子（タンパク質、ペプチド、ナノボディ、小分子、RNAなど）を標的とする汎用バインダー設計モデルである BoltzGen を紹介した論文です。

解説など

BoltzGenは全原子生成モデルです。バインダーデザインの実装があり、かつオープンソース化されているツールであることが最大の特徴です。

モデルの設計は既報の全原子生成モデルと類似しています。

幾何的残基表現（Geometric residue encoding）

各設計残基を14原子固定長で表現。
側鎖を「仮想原子 (virtual atoms)」として含み、原子配置で残基タイプを暗黙的に表現。
- 例：酸素上に3原子＋窒素上に4原子→スレオニンと解釈。
⇒ 連続空間での学習が可能（離散ラベル不要）→foldingと設計を統一訓練。

学習タスク混合（Multi-task joint training）

学習データはPDB + AlphaFoldDB + Boltz-1自己蒸留データ（RNA/ligand複合体含む）。
抗体・TCRデータの過剰強調は除外して多様性を維持。
BoltzGenは単一モデルで以下を同時に学習

タスク	説明
Folding	構造予測
Binder design	対象に対する新規バインダー設計
Motif scaffolding	モチーフを保持して残りを生成
Unconditional design	条件なし生成

生成パイプライン（BoltzGen pipeline）

BoltzGen本体は設計生成器に過ぎません。実際のスクリーニングは以下の6段階パイプラインで行われます。

拡散生成
仕様に従い数千設計を生成。
逆フォールディング（Inverse folding）
BoltzIF（SolubleMPNN類似）で再設計→可溶性向上。
構造再折り畳み検証（Folding）
Boltz-2で再予測し、ΔRMSDやpAE/pTMを算出。
親和性予測（Affinity Prediction）
小分子標的に対しBoltz-2の親和性モジュール使用。
物理・発現指標計算（Analyze）
Hボンド数、ΔSASA、疎水パッチ面積、溶解度など。
フィルタリング＆多様性最適化（Filter + QD selection）
スコア重み付けに基づくrank集約（最悪順位法）＋構造/配列多様化。

A100 GPU上で1設計あたり20–30 秒で完結する高効率フローです。

本文では、ナノボディや生理活性ペプチドなど多様なフォールドのバインダーを生成し、IDPや低分子を含む多様なエピトープを標的とした事例が紹介されています。

いずれのケースも 60,000 程度の生成配列からスタートし、フィルタリングをもとに100配列、さらにQD selectionを通じて15配列まで絞ってから、実験検証を行っています。ナノボディでは6/9標的でヒットの同定に成功しています。

コードはこちら。

GitHub - HannesStark/boltzgen

Contribute to HannesStark/boltzgen development by creating an account on GitHub.