論文タイトル
Data-efficient protein mutational effect prediction with weak supervision by molecular simulation and protein language models
出典
Just a moment...
要旨
大規模データで学習した拡散 Transformer により、配列と構造を同時生成し、機能条件を満たす多状態タンパク質まで設計できる ProDiT の開発研究です。
解説など
配列と構造の両方を生成できるマルチモーダル拡散モデルの紹介です。
従来のマルチモーダルなタンパク質生成モデルである ESM3 は、言語モデルベースで構造を離散トークンとして扱います。一方でProteinGenerator という別のモデルは、RFDiffusionアーキテクチャをベースとしており配列を連続ベクトルに埋め込んで扱います。このようにESM3は構造を「言語化」しすぎ、ProteinGenerator は配列を「構造化」しすぎることが理由で精度が低下する課題がありました。
本論文で紹介された ProDiT は、配列には離散マスク拡散、構造には連続拡散と、それぞれ本来の表現で扱うことでこれまでの課題解決を試みています。これは、次の複数の技術により実現を可能にしています。
(1)マスクによる離散拡散
- 近年普及した技術により配列は離散拡散により生成
(2) Transformerベースの統一アーキテクチャ
- 構造生成で従来主流だった SE(3)同変ニューラルネット(重い)を使わず、標準的なTransformerを採用。これにより大規模なデータを扱えるように。Transformerなら入力種別ごとに埋め込みを変えて統合でき、マルチモーダル条件付けが自然に実装できる。
(3) 大規模構造データの活用
- PDBだけでなく、AlphaFoldDB の構造情報を活用。非同変性の課題を学習スケールで解決。
ProDiTは配列と構造を同時に生成できるため機能生成との相性が良いと考えられます。
以下2つの実施例により性能を示しています。実験的な評価はなされていません。
1. 機能条件付き生成
- Gene Ontology (GO) の機能ラベルを条件として与えられる。
- DeepFRI (GO予測モデル) で検証すると、915 GO term のうち463種類で成功例あり。
2. 多状態タンパク質設計
- Coupled Structure Diffusionという新手法を導入。
→ 1つの配列に対して2つの構造を並列にデノイズする仕組み。 - ケーススタディ:
- リゾチーム活性部位をカルシウム依存で不活性化する設計。
- 炭酸脱水酵素活性部位をCa²⁺結合によって阻害する設計。
- Chai-1構造予測で、Ca²⁺有無で明確にコンフォメーションが切り替わることを確認。

