evedesignとは？タンパク質設計AIを“つなぐ”統合基盤が目指す、誰でも使えるバイオシーケンス設計

evedesign: accessible biosequence design with a unified framework

タンパク質工学で急増している多様な機械学習モデル（進化モデル、タンパク質言語モデル、構造モデルなど）を、共通仕様で組み合わせて使える統合フレームワーク「evedesign」が提案されています。

近年のタンパク質設計では、ESM-2のようなタンパク質言語モデル、ProteinMPNNのような構造ベース設計、MSA（多重配列アラインメント）由来の進化モデルなど、多くの強力な手法が登場しています。

一方で、それぞれ入力形式やAPIが異なり、「複数モデルを組み合わせて現実的な設計課題を解く」ことが非常に難しい、という問題がありました。

evedesignでは、バイオ分子設計を「条件付きモデリング問題」として統一的に表現します。入力情報やタスクを標準化された形式で記述し、その上で異なるモデルを共通インターフェースで利用します。

特に重要なのは、各設計候補（instance）が複数レベルの情報を同時に持てる点です。

これにより、たとえば「ESM-2で配列尤度を評価し、その後ProteinMPNNで構造文脈から再評価する」といった流れを自然につなげられます。

具体的には各モデルを generate()、score()、transform() の3操作で統一しています。例を挙げると以下のとおりとなります。

本文では新規モデルとして EVmutation2 も紹介されています。

これは既存 EVE 系のようにターゲットごとの個別学習を必要とせず、OpenProteinSet で事前学習された軽量 MSA ベースモデルです。

本文記載では、

という特徴があります。

いくつかの活用事例も示されています。抗体の親和性成熟では、Hieらの既報抗体変異データを用い、

と記載されています。

ここで面白いのは、ESM-2 と ProteinMPNN のトップ変異候補の重なりが非常に低い（平均top5% overlap = 0.08 ± 0.11）ことです。つまり、「配列モデル vs 構造モデル」は代替関係ではなく補完関係であり、evedesign はその統合器として機能します。

コードはこちら。