【タンパク質デザイン】Institute for Protein Design で活用されているデータフレームワーク AtomWorks を紹介

論文タイトル

Investigating the impacts of sidechains on de-novo protein design

出典

Just a moment...

要旨

AtomWorks という高品質なデータ処理とモジュール化されたフレームワークを通じて基盤モデル開発を加速することを目指した研究です。また AtomWorks を活用して最先端構造予測モデル RosettaFold-3 を開発しています。

解説など

ワシントン大学の Baker 研究室と DiMaio 研究室を中心に発表された最新のプレプリントです。本論文では、タンパク質の構造予測・設計用のデータフレームワーク AtomWorks とそれを使った新しい構造予測モデル RosettaFold-3を提案しています。

AtomWorks を使うことで、PDBなどの複雑で不完全な構造データを正規化することができます。Institute for Protein Designでは、すでに多くの開発者が活用し、また拡張が続けられているとのことです。その特徴は次のとおりです。

1. 高品質なデータ処理

  • PDBやRNAcentralなど多様な構造データを共通の 原子レベル表現(AtomArray) に正規化
  • 欠損座標、誤結合・電荷、多重占有、対称中心上の配位子など構造データの不具合を自動で処理

2. モジュール化と再利用性

  • データ前処理を Transform として分割、チェーンで宣言的に記述可能
    • 例: Atomize → Cropping → MSAロード → コンフォーマ生成 → モデル用特徴作成
  • 出力は常に更新済み AtomArray なので、情報が落ちず差し替えや拡張が容易

3. スケーラブルな学習基盤

  • ベクトル化 C 実装 + Biotite ライブラリを活用し、大規模データ処理を高速化
    • 例: 6000トークンのバッチを0.6秒で処理

4. 信頼性・使いやすさ

  • 業界水準のテスト (>85%カバレッジ) と包括的なドキュメントを公開
  • worked examples(実例付きチュートリアル) により、新規ユーザーでもすぐ利用可能

AtomWorks により、LigandMPNN の2,000 行以上の独自処理を、100行程度の宣言的パイプラインに置き換えられると説明されています。またRF3, RF All-Atom, ProteinMPNN, LigandMPNN で 80%以上のコードを共通利用可能とのことです。

RF3 は RosettaFold の次世代版です。既存モデルの改良点として、キラリティの予測が挙げられています。キラル中心の符号を学習特徴量として導入することで、従来困難だった D-アミノ酸を含むペプチドでも正確に構造予測できます。

一般的なユースケースとして、抗体-抗原複合体の予測精度なども示されていますが、DockQ > 0.23 の割合が次のとおりで、AF3とBoltz-2の中間的な性能を示したとのことです。

  • AF3: 44%
  • RF3: 33%
  • Boltz-2: 22%
  • Chai-1: 28%

下記の点が、AF3 にまだ及ばない理由として想定されます。

  • AF3 は PDB全体だけでなく大規模に再予測した AlphaFoldDB や高品質な distillation データを利用している
  • AF3 のネットワークは、公開されている論文以上に内部チューニングがなされている可能性が高い
  • Google DeepMindの大規模TPU/GPUクラスタで数百万GPU時間レベルの学習を行っている
  • AF3は inference-time guidance(例えばキラリティ補正や構造拘束の微調整)を積極的に利用している

AtomWorks のコードはこちら。

GitHub - RosettaCommons/atomworks: A generalized computational framework for biomolecular modeling.
A generalized computational framework for biomolecular modeling. - RosettaCommons/atomworks