【タンパク質デザイン】Institute for Protein Design で活用されているデータフレームワーク AtomWorks を紹介

Investigating the impacts of sidechains on de-novo protein design

AtomWorks という高品質なデータ処理とモジュール化されたフレームワークを通じて基盤モデル開発を加速することを目指した研究です。また AtomWorks を活用して最先端構造予測モデル RosettaFold-3 を開発しています。

ワシントン大学の Baker 研究室と DiMaio 研究室を中心に発表された最新のプレプリントです。本論文では、タンパク質の構造予測・設計用のデータフレームワーク AtomWorks とそれを使った新しい構造予測モデル RosettaFold-3を提案しています。

AtomWorks を使うことで、PDBなどの複雑で不完全な構造データを正規化することができます。Institute for Protein Designでは、すでに多くの開発者が活用し、また拡張が続けられているとのことです。その特徴は次のとおりです。

1. 高品質なデータ処理

2. モジュール化と再利用性

データ前処理を Transform として分割、チェーンで宣言的に記述可能
- 例: Atomize → Cropping → MSAロード → コンフォーマ生成 → モデル用特徴作成
出力は常に更新済み AtomArray なので、情報が落ちず差し替えや拡張が容易

3. スケーラブルな学習基盤

4. 信頼性・使いやすさ

AtomWorks により、LigandMPNN の2,000 行以上の独自処理を、100行程度の宣言的パイプラインに置き換えられると説明されています。またRF3, RF All-Atom, ProteinMPNN, LigandMPNN で 80%以上のコードを共通利用可能とのことです。

RF3 は RosettaFold の次世代版です。既存モデルの改良点として、キラリティの予測が挙げられています。キラル中心の符号を学習特徴量として導入することで、従来困難だった D-アミノ酸を含むペプチドでも正確に構造予測できます。

一般的なユースケースとして、抗体-抗原複合体の予測精度なども示されていますが、DockQ > 0.23 の割合が次のとおりで、AF3とBoltz-2の中間的な性能を示したとのことです。

下記の点が、AF3 にまだ及ばない理由として想定されます。

AtomWorks のコードはこちら。