論文タイトル
evedesign: accessible biosequence design with a unified framework
出典
要旨
タンパク質工学で急増している多様な機械学習モデル(進化モデル、タンパク質言語モデル、構造モデルなど)を、共通仕様で組み合わせて使える統合フレームワーク「evedesign」が提案されています。
解説など
evedesignについて
近年のタンパク質設計では、ESM-2のようなタンパク質言語モデル、ProteinMPNNのような構造ベース設計、MSA(多重配列アラインメント)由来の進化モデルなど、多くの強力な手法が登場しています。
一方で、それぞれ入力形式やAPIが異なり、「複数モデルを組み合わせて現実的な設計課題を解く」ことが非常に難しい、という問題がありました。
evedesignでは、バイオ分子設計を「条件付きモデリング問題」として統一的に表現します。入力情報やタスクを標準化された形式で記述し、その上で異なるモデルを共通インターフェースで利用します。
特に重要なのは、各設計候補(instance)が複数レベルの情報を同時に持てる点です。
- 配列(sequence)
- 埋め込み表現(embedding)
- 3D構造(structure)
これにより、たとえば「ESM-2で配列尤度を評価し、その後ProteinMPNNで構造文脈から再評価する」といった流れを自然につなげられます。
具体的には各モデルを generate()、score()、transform() の3操作で統一しています。例を挙げると以下のとおりとなります。
ESM-2
- generate: (本文からは主要用途ではない可能性)
- score: 配列尤度
- transform: embedding生成
ProteinMPNN
- score: 構造条件付き配列評価
- generate: inverse folding
- transform: 条件に応じる
EVmutation2について
本文では新規モデルとして EVmutation2 も紹介されています。
これは既存 EVE 系のようにターゲットごとの個別学習を必要とせず、OpenProteinSet で事前学習された軽量 MSA ベースモデルです。
本文記載では、
- 14.3M パラメータ
- AlphaFold3 簡略版表現を利用
- order-invariant autoregressive decoder(既知残基を順序ランダム化しつつ前方条件に置く設計)
という特徴があります。
いくつかの活用事例も示されています。抗体の親和性成熟では、Hieらの既報抗体変異データを用い、
- ESM-2 で beneficial mutation の81.5%(54中44)が上位5%に入る
- ProteinMPNN は界面近傍(6Å以内)の有害変異をより適切に低スコア化
と記載されています。
ここで面白いのは、ESM-2 と ProteinMPNN のトップ変異候補の重なりが非常に低い(平均top5% overlap = 0.08 ± 0.11)ことです。つまり、「配列モデル vs 構造モデル」は代替関係ではなく補完関係であり、evedesign はその統合器として機能します。
コードはこちら。

