現在の結合親和性予測モデルは、どんな特徴を学習しているのか

From Proteins to Ligands: Decoding Deep Learning Methods for Binding Affinity Prediction

結合親和性予測のための既存の機械学習モデルが、どのような特徴量を用いて親和性を予測しているのか、そのメカニズムについて解析した論文です。

タンパク質とリガンドの結合親和性予測には、以下のレビュー論文に取り上げられるように様々な手法が存在します。

これらいずれの手法も、深層学習を利用した結合親和性予測のために、タンパク質やリガンドの情報を何らかの方法でエンコーディングして、ベクトル化するステップを要します。

本論文では、１次元のアミノ酸配列情報、または２次元のコンタクトマップ情報に基づくエンコーディング手法が、結合親和性予測に与える影響を調査しています。

コンタクトマップを、AlphaFold2, ESM-2b, Pconsc4 それぞれに由来する構造情報を利用して作成したところ、コンタクトマップそのものの精度はAlphaFold2が最も高かったものの、親和性予測精度はいずれを比較しても大きな変化はなかった。
タンパク質言語モデルから標的タンパク質をエンコーディングしたときの親和性予測成績は、コンタクトマップを用いてエンコーディングした結果と変わらず。

本結果から、現在の複合体構造ベースのモデルは、タンパク質とリガンドの結合の物理学的特徴を必ずしも学習できていない、ということがわかりました。