ProtBFFによるタンパク質間結合ΔΔG予測の改善

論文タイトル

Biophysically Grounded Deep Learning Improves Protein–Protein ΔΔG Prediction

出典

Just a moment...

要旨

本論文では、タンパク質間結合自由エネルギー変化(ΔΔG)予測において、既存データセットの問題点を明らかにし、生物物理的特徴を明示的に取り入れる新しい枠組み「ProtBFF」を提案しています。

解説など

この研究では、「変異によってタンパク質同士の結合強さ(ΔΔG)がどれだけ変わるか」を深層学習で予測する問題を扱っています。

既存の主な手法はエンコーダ(ESMやProSSTなど)から得られる特徴量をもとに転移学習してΔΔGを予測するわけですが、筆者らは、エンコーダに後付けできるモジュールとして、ProtBFF(Protein Biophysical Feature Framework)が有効であることを提案しています。

ProtBFFの特徴は以下の点です。

  • 各残基の埋もれ度や界面近接性など、5種類の生物物理スコアを計算
  • それらのスコアで残基レベルの埋め込み表現をスケーリング
  • 複数のスケーリング埋め込みをcross-embedding attentionで統合
  • ΔΔGに加えて、構造的一貫性を表すilDDTも同時に学習(マルチタスク学習)

これにより、「どの残基が結合に効きやすいか」という生物物理的直感を、学習過程に直接組み込んでいます。

ProtBFFを組み込むことで、ProSSTやESMといった汎用エンコーダでも、ΔΔG予測の相関係数(PearsonおよびSpearman)が改善したと記載されています。この成績は以下の既存のΔΔG予測モデルよりも優れていました。

  • ProMIM
  • RDE-Network
  • RDE-Linear
  • DDFffinity
  • FoldX

特徴的なのは、エンコーダとしてESM2やESM3よりもProSSTを採用した結果が優れていた点です。ProSSTは事前学習の時点で構造変化に敏感な残基埋め込みを出しやすいことが理由だと考えられます。

また、各生物物理スコアを一つずつ除去するアブレーション解析から、特に界面スコアと埋もれ度スコアの寄与が大きいことが示されています。

一般的に、タンパク質ΔΔG予測では「大規模事前学習モデルに任せる」方向と、「物理モデルに基づく特徴量を使う」方向が分かれてきました。本研究はその中間に位置づけられ、事前学習埋め込みを活かしつつ、生物物理的帰納バイアスを明示的に注入する点が特徴だと考えられます。