【タンパク質デザイン】13種のタンパク質生成モデルの性能を比較検証してみた

論文タイトル

Systematic comparison of Generative AI-Protein Models reveals fundamental differences between structural and sequence-based approaches 

出典

Systematic comparison of Generative AI-Protein Models reveals fundamental differences between structural and sequence-based approaches
Recent advances in artificial intelligence have led to the development of generative models for de novo protein design. We compared 13 state-of-the-art generati...

要旨

タンパク質の構造・配列生成モデルの性能や特徴を同一試験上で比較評価した論文です。

解説など

筆者らは、これまでに公開された 13 種類のタンパク質生成モデルの性能や特徴をパラレルに比較検証しています。モデルの種類は、実験結果とともに下記の表にまとめていますのでご参照ください。

本論文ではこれらのモデルに対して、以下4つの指標で各モデルの性能を評価しました。

  • Designability:設計可能性
    • 生成されたBackbone構造に対して、ProteinMPNNで複数の配列(10種類)を設計。
    • 各配列をOmegaFoldで構造予測し、元の構造との一致度(scTM-score)を測定。
    • また、scRMSD(原子間距離の平均偏差)も評価。
  • Feasibility:物理的妥当性
    • PyRosettaを用いて、生成構造の物理化学的エネルギー(REF2015スコア)を計算。
    • 比較対象:PISCESデータベースの天然タンパク質。
    • 以下のような詳細指標も分析:
      • fa_rep(原子間斥力)
      • hbond_sr_bb(短距離水素結合)
      • rama_prepro(二面角の妥当性)
      • Φ/Ψ/Ω/χ角度の分布
      • 二次構造モチーフ(α-ヘリックス、β-シートなど)の頻度
  • Diversity:構造的多様性
    • 生成配列をESM-Large言語モデルで埋め込み(embedding)。
    • t-SNEで2次元に可視化し、自然タンパク質(UniRef50, PISCES)との分布比較。
    • また、MaxClusterを使って構造クラスタ数をカウント。
  • Novelty(新規性)
    • Foldseekで、生成された構造をESMAtlas構造データベースと照合。
    • 最も似ている構造とのTM-scoreや一致率(LDDT)、ヒットの有無を調査。

詳細は下表に譲りますが、全体的な傾向としては、拡散生成モデル由来と配列生成モデル由来の間に大きな溝がある印象です。前者の方が生成された構造の信頼性は高いものの、構造の多様性は乏しく、また出現するアミノ酸配列分布が天然と異なります。

また conditional な生成が可能な以下5つのモデルについて、TEVプロテアーゼの再設計を行い活性評価を行いました。一応実績としては、RFdiffusion と Protpardelle から活性をもつデザインがひとつずつ得られましたが、例数が少なく、機能デザインに対して統計的な性能を評価するには、より多くのスクリーニング数が必要そうです。

  • RFdiffusion
  • Chroma
  • Protpardelle
  • ProteinGenerator
  • EvoDiff

モデル名パラダイム出力形式条件付き生成特徴
RFdiffusion構造拡散 (Diffusion – Structure)Backbone構造可能高い構造信頼度とエネルギー的妥当性。構造多様性が低く、生成配列の偏りが強い。
Chroma構造拡散 (Diffusion – Structure)全三次構造可能構造生成が高速。独自の配列設計ネットワークを使用。側鎖配置の品質は限定的。
Protpardelle構造拡散 (Diffusion – Structure)全三次構造可能多様性が非常に低いが、エネルギープロファイルは比較的妥当。Rosetta設計を各ステップで使用。
ProteinSGM構造拡散 (Diffusion – Structure)Backbone構造不可実装が困難で時間がかかる。出力品質はRosetta精緻化の有無に強く依存。
FoldingDiff構造拡散 (Diffusion – Structure)Backbone構造不可構造の新規性が高い。
FrameDiff構造拡散 (Diffusion – Structure)Backbone構造不可構造の多様性は比較的高い。
Genie構造拡散 (Diffusion – Structure)CαのみのBackbone構造不可出力が簡素で高速だが、三次構造の解像度が低い。
ProteinGenerator配列拡散+構造認識 (Diffusion – Sequence)全三次構造可能構造的な妥当性が低く、側鎖配置のエラーが多い。
EvoDiff配列拡散 (Diffusion – Sequence)配列可能言語モデルに似た新規性と多様性を示す。
RITA自己回帰型言語モデル (Autoregressive PLM)配列不可自然配列の統計に近い分布を再現するが、構造信頼度が低い。
ProGen2自己回帰型言語モデル (Autoregressive PLM)配列不可多様性と新規性が高いが、構造的信頼性は限定的。
ProtGPT2自己回帰型言語モデル (Autoregressive PLM)配列不可自然配列空間を広くカバーし、構造クラスターの多様性が高い。
ESM-Designマスク型言語モデル (Masked Token PLM)配列不可アミノ酸の使用が均一で、性能は低めだが、計算リソース制限の影響が大。