マルチモーダルPLMを進化させた「EiRA」：ユニバーサルな生体分子結合タンパク質設計への挑戦

論文タイトル

Improved multimodal protein language model-driven universal biomolecules-binding protein design with EiRA

出典

Improved multimodal protein language model-driven universal biomolecules-binding protein design with EiRA

The interactions between proteins and other biomolecules, such as nucleic acids, form a complex system that supports life activities. Designing proteins capable...

要旨

生体分子に結合するタンパク質を汎用的に設計するために、マルチモーダルタンパク質言語モデルを拡張したEiRAを提案しています。

解説など

本研究では、生体分子（DNA・RNA・金属イオン・ペプチド・タンパク質など）に結合するタンパク質を汎用的（universal）に設計できる生成モデル「EiRA」を開発しています。

従来の大規模タンパク質言語モデル（PLM）であるESM3は、配列・構造・機能アノテーションなどを統合的に扱えるマルチモーダルモデルですが、生体分子結合という特定ドメインに特化してはいませんでした。

そこで著者らは、

生体分子結合タンパク質に特化した追加学習
結合部位情報を利用した生成最適化
DNA配列条件付き設計への拡張

を行い、「結合タンパク質設計」に焦点を当てたEiRAを構築しました。

1. ドメイン適応型マスキング学習（UniBind40）

まず約5,400万件の結合関連タンパク質配列をUniProtKBから収集し、厳密なフィルタリングとクラスタリングを経て、最終的に 3,735,303配列（UniBind40）を構築したと本文に記載があります。このデータセットを用いて、ESM3-small（1.4Bパラメータ）に対して追加の自己教師あり学習を実施しています。相互作用情報を直接学習するのではなく、単鎖の相互作用タンパク質の情報を学習しているということです。

2. 結合部位情報に基づくDPO最適化

次に、DPO（Direct Preference Optimization）という手法を使っています。

DPOとは、「より良い生成例」と「劣る生成例」のペアを用いて、モデルに“好ましい出力”を学習させる方法です。

本研究では：

結合エピトープを与えて、その全長タンパク質30配列を生成
構造予測後、pTM（構造全体の信頼度）で順位付け
良い例・悪い例のペアを構築
DPO + SFT損失で学習

最終的に 224,891の選好ペアで学習しています。

著者らは、EiRAを、Glucagonペプチド結合体の「ワンショット設計」に応用しています。PDB 8gji には、Glucagonペプチドとそれに結合するGlucagonバインダーの複合体情報が登録されています。このバインダー側のGlucagonペプチドに接触している残基を抽出し、その結合エピトープを保持したまま全長タンパク質をEiRAで再設計するという問題設定です。

これにより配列相同性が元配列と50%以上異なり、Glucagonに23uMで結合する配列が設計できたと報告されています。

コードはこちら。