マルチモーダルPLMを進化させた「EiRA」:ユニバーサルな生体分子結合タンパク質設計への挑戦

論文タイトル

Improved multimodal protein language model-driven universal biomolecules-binding protein design with EiRA

出典

Improved multimodal protein language model-driven universal biomolecules-binding protein design with EiRA
The interactions between proteins and other biomolecules, such as nucleic acids, form a complex system that supports life activities. Designing proteins capable...

要旨

生体分子に結合するタンパク質を汎用的に設計するために、マルチモーダルタンパク質言語モデルを拡張したEiRAを提案しています。

解説など

本研究では、生体分子(DNA・RNA・金属イオン・ペプチド・タンパク質など)に結合するタンパク質を汎用的(universal)に設計できる生成モデル「EiRA」を開発しています。

従来の大規模タンパク質言語モデル(PLM)であるESM3は、配列・構造・機能アノテーションなどを統合的に扱えるマルチモーダルモデルですが、生体分子結合という特定ドメインに特化してはいませんでした。

そこで著者らは、

  • 生体分子結合タンパク質に特化した追加学習
  • 結合部位情報を利用した生成最適化
  • DNA配列条件付き設計への拡張

を行い、「結合タンパク質設計」に焦点を当てたEiRAを構築しました。

1. ドメイン適応型マスキング学習(UniBind40)

まず約5,400万件の結合関連タンパク質配列をUniProtKBから収集し、厳密なフィルタリングとクラスタリングを経て、最終的に 3,735,303配列(UniBind40) を構築したと本文に記載があります。このデータセットを用いて、ESM3-small(1.4Bパラメータ)に対して追加の自己教師あり学習を実施しています。相互作用情報を直接学習するのではなく、単鎖の相互作用タンパク質の情報を学習しているということです。

2. 結合部位情報に基づくDPO最適化

次に、DPO(Direct Preference Optimization)という手法を使っています。

DPOとは、「より良い生成例」と「劣る生成例」のペアを用いて、モデルに“好ましい出力”を学習させる方法です。

本研究では:

  • 結合エピトープを与えて、その全長タンパク質30配列を生成
  • 構造予測後、pTM(構造全体の信頼度)で順位付け
  • 良い例・悪い例のペアを構築
  • DPO + SFT損失で学習

最終的に 224,891の選好ペア で学習しています。

著者らは、EiRAを、Glucagonペプチド結合体の「ワンショット設計」に応用しています。PDB 8gji には、Glucagonペプチドとそれに結合するGlucagonバインダーの複合体情報が登録されています。このバインダー側のGlucagonペプチドに接触している残基を抽出し、その結合エピトープを保持したまま全長タンパク質をEiRAで再設計するという問題設定です。

これにより配列相同性が元配列と50%以上異なり、Glucagonに23uMで結合する配列が設計できたと報告されています。

コードはこちら。

GitHub - pengsl-lab/EiRA: The source code and data of EiRA
The source code and data of EiRA. Contribute to pengsl-lab/EiRA development by creating an account on GitHub.