evedesignとは?タンパク質設計AIを“つなぐ”統合基盤が目指す、誰でも使えるバイオシーケンス設計

論文タイトル

evedesign: accessible biosequence design with a unified framework

出典

Just a moment...

要旨

タンパク質工学で急増している多様な機械学習モデル(進化モデル、タンパク質言語モデル、構造モデルなど)を、共通仕様で組み合わせて使える統合フレームワーク「evedesign」が提案されています。

解説など

evedesignについて

近年のタンパク質設計では、ESM-2のようなタンパク質言語モデル、ProteinMPNNのような構造ベース設計、MSA(多重配列アラインメント)由来の進化モデルなど、多くの強力な手法が登場しています。

一方で、それぞれ入力形式やAPIが異なり、「複数モデルを組み合わせて現実的な設計課題を解く」ことが非常に難しい、という問題がありました。

evedesignでは、バイオ分子設計を「条件付きモデリング問題」として統一的に表現します。入力情報やタスクを標準化された形式で記述し、その上で異なるモデルを共通インターフェースで利用します。

特に重要なのは、各設計候補(instance)が複数レベルの情報を同時に持てる点です。

  • 配列(sequence)
  • 埋め込み表現(embedding)
  • 3D構造(structure)

これにより、たとえば「ESM-2で配列尤度を評価し、その後ProteinMPNNで構造文脈から再評価する」といった流れを自然につなげられます。

具体的には各モデルを generate()、score()、transform() の3操作で統一しています。例を挙げると以下のとおりとなります。

ESM-2
  • generate: (本文からは主要用途ではない可能性)
  • score: 配列尤度
  • transform: embedding生成
ProteinMPNN
  • score: 構造条件付き配列評価
  • generate: inverse folding
  • transform: 条件に応じる

EVmutation2について

本文では新規モデルとして EVmutation2 も紹介されています。

これは既存 EVE 系のようにターゲットごとの個別学習を必要とせず、OpenProteinSet で事前学習された軽量 MSA ベースモデルです。

本文記載では、

  • 14.3M パラメータ
  • AlphaFold3 簡略版表現を利用
  • order-invariant autoregressive decoder(既知残基を順序ランダム化しつつ前方条件に置く設計)

という特徴があります。

いくつかの活用事例も示されています。抗体の親和性成熟では、Hieらの既報抗体変異データを用い、

  • ESM-2 で beneficial mutation の81.5%(54中44)が上位5%に入る
  • ProteinMPNN は界面近傍(6Å以内)の有害変異をより適切に低スコア化

と記載されています。

ここで面白いのは、ESM-2 と ProteinMPNN のトップ変異候補の重なりが非常に低い(平均top5% overlap = 0.08 ± 0.11)ことです。つまり、「配列モデル vs 構造モデル」は代替関係ではなく補完関係であり、evedesign はその統合器として機能します。

コードはこちら。

evedesign