【タンパク質デザイン】全原子生成モデル BlotzGen でバインダーを設計

論文タイトル

BoltzGen: Toward Universal Binder Design

出典

BoltzGen: Toward Universal Binder Design – MIT Jameel Clinic

要旨

あらゆる種類の生体分子(タンパク質、ペプチド、ナノボディ、小分子、RNAなど)を標的とする汎用バインダー設計モデルである BoltzGen を紹介した論文です。

解説など

BoltzGenは全原子生成モデルです。バインダーデザインの実装があり、かつオープンソース化されているツールであることが最大の特徴です。

モデルの設計は既報の全原子生成モデルと類似しています。

幾何的残基表現(Geometric residue encoding)
  • 各設計残基を14原子固定長で表現。
  • 側鎖を「仮想原子 (virtual atoms)」として含み、原子配置で残基タイプを暗黙的に表現。
    • 例:酸素上に3原子+窒素上に4原子→スレオニンと解釈。
  • ⇒ 連続空間での学習が可能(離散ラベル不要)→foldingと設計を統一訓練。
学習タスク混合(Multi-task joint training)
  • 学習データはPDB + AlphaFoldDB + Boltz-1自己蒸留データ(RNA/ligand複合体含む)。
  • 抗体・TCRデータの過剰強調は除外して多様性を維持。
  • BoltzGenは単一モデルで以下を同時に学習
タスク説明
Folding構造予測
Binder design対象に対する新規バインダー設計
Motif scaffoldingモチーフを保持して残りを生成
Unconditional design条件なし生成
生成パイプライン(BoltzGen pipeline)

BoltzGen本体は設計生成器に過ぎません。実際のスクリーニングは以下の6段階パイプラインで行われます。

  1. 拡散生成
    仕様に従い数千設計を生成。
  2. 逆フォールディング(Inverse folding)
    BoltzIF(SolubleMPNN類似)で再設計→可溶性向上。
  3. 構造再折り畳み検証(Folding)
    Boltz-2で再予測し、ΔRMSDやpAE/pTMを算出。
  4. 親和性予測(Affinity Prediction)
    小分子標的に対しBoltz-2の親和性モジュール使用。
  5. 物理・発現指標計算(Analyze)
    Hボンド数、ΔSASA、疎水パッチ面積、溶解度など。
  6. フィルタリング&多様性最適化(Filter + QD selection)
    スコア重み付けに基づくrank集約(最悪順位法)+構造/配列多様化。

A100 GPU上で1設計あたり20–30 秒で完結する高効率フローです。

本文では、ナノボディや生理活性ペプチドなど多様なフォールドのバインダーを生成し、IDPや低分子を含む多様なエピトープを標的とした事例が紹介されています。

いずれのケースも 60,000 程度の生成配列からスタートし、フィルタリングをもとに100配列、さらにQD selectionを通じて15配列まで絞ってから、実験検証を行っています。ナノボディでは6/9標的でヒットの同定に成功しています。

コードはこちら。

GitHub - HannesStark/boltzgen
Contribute to HannesStark/boltzgen development by creating an account on GitHub.