【タンパク質デザイン】部分潜在表現を活用した全原子生成モデル La-Proteina とは

論文タイトル

La-Proteina:Atomistic Protein Generation via Partially Latent Flow Matching

出典

La-Proteina: Atomistic Protein Generation via Partially Latent Flow Matching
La-Proteina: Atomistic Protein Generation via Partially Latent Flow Matching

要旨

部分潜在表現を活用した全原子生成モデル La-Proteina の研究論文です。

解説など

昨今開発が進んでいる全原子生成モデルの開発報告です。RFDiffusion に代表される主鎖構造生成ではなく、全原子を生成する(結果的にアミノ酸配列が同時に生成される)モデルの開発報告が増えています。

全原子生成モデルには、これまで大きく以下の2つのタイプが存在しました。

  • データ空間直接生成型
    • 配列と全原子座標をそのまま直接モデル化
    • 側鎖の変動次元性(残基ごとに異なる数の原子が存在)により、生成が不安定になりやすい
    • 例:P(all-atom)、Protpardelle、ProteinGenerator
  • 潜在表現型
    • VAEや拡散モデルで配列や構造を潜在ベクトルに圧縮し、その空間で生成
    • 構造に対する制約が弱くなり、生成の精度や安定性が低下しやすい
    • 例:PLAID

これら2つの型の課題を克服するため、筆者らは部分潜在表現を採用しました。これはα炭素の座標は明示的に扱う(直接生成型)のに対して、配列と側鎖原子の情報は固定次元潜在ベクトルにエンコード(潜在表現型)する、という戦略です。モデル構成としては、Cαには部分潜在 Flow Matchingを、配列と全原子座標にはVAEを活用しています。

このアプローチを採用した La-Proteina はインシリコメトリクスから、既存の全原子生成モデルに比べて高い信頼性のタンパク質が生成できることが示されています。また特徴的なのは800残基までの高分子量タンパク質を生成することにも成功している点です。

また、別の実施例としてモチーフスキャフォールディングへの適用も試みています。

All-atom motif scaffolding:モチーフ残基の「全原子情報」で条件付け

Tip-atom motif scaffolding:モチーフ残基の「官能基末端の原子(tip atoms)」のみで条件付け

Tip-atomを活用するのは全原子生成ならではの方法で、リガンドの相互作用点が既知の際に有効です。

コード
GitHub - NVIDIA-Digital-Bio/la-proteina: A partially latent flow matching model for the joint generation of a protein’s amino acid sequence and full atomistic structure, including both the backbone and side chain.
A partially latent flow matching model for the joint generation of a protein’s amino acid sequence and full atomistic structure, including both the backbone and...