現在の結合親和性予測モデルは、どんな特徴を学習しているのか

論文タイトル

From Proteins to Ligands: Decoding Deep Learning Methods for Binding Affinity Prediction

出典

Just a moment...

要旨

結合親和性予測のための既存の機械学習モデルが、どのような特徴量を用いて親和性を予測しているのか、そのメカニズムについて解析した論文です。

解説など

タンパク質とリガンドの結合親和性予測には、以下のレビュー論文に取り上げられるように様々な手法が存在します。

A brief review of protein-ligand interaction prediction - PubMed
The task of identifying protein-ligand interactions (PLIs) plays a prominent role in the field of drug discovery. However, it is infeasible to identify potentia...

これらいずれの手法も、深層学習を利用した結合親和性予測のために、タンパク質やリガンドの情報を何らかの方法でエンコーディングして、ベクトル化するステップを要します。

本論文では、1次元のアミノ酸配列情報、または2次元のコンタクトマップ情報に基づくエンコーディング手法が、結合親和性予測に与える影響を調査しています。

結果
結論:
  • リガンドのエンコーディングが、結合予測モデルのパフォーマンスに最も大きな影響を与えている
その他の検討項目:
  • コンタクトマップを、AlphaFold2, ESM-2b, Pconsc4 それぞれに由来する構造情報を利用して作成したところ、コンタクトマップそのものの精度はAlphaFold2が最も高かったものの、親和性予測精度はいずれを比較しても大きな変化はなかった。
  • タンパク質言語モデルから標的タンパク質をエンコーディングしたときの親和性予測成績は、コンタクトマップを用いてエンコーディングした結果と変わらず。

本結果から、現在の複合体構造ベースのモデルは、タンパク質とリガンドの結合の物理学的特徴を必ずしも学習できていない、ということがわかりました。