【相互作用予測】リガンド結合予測に、タンパク質の構造情報は必要?

論文タイトル

From Proteins to Ligands: Decoding Deep Learning Methods for Binding Affinity Prediction

出典

https://www.biorxiv.org/content/10.1101/2023.08.01.551483v1

確認したいこと

深層学習を用いたタンパク質デザイン手法をベンチマークしています。

要旨

深層学習を用いた、タンパク質・低分子リガンド間の相互作用強度予測モデルが、どのような特徴量を捉えて予測しているのか、検証した論文です。結論として、主要な DL モデルは、コンタクトマップなどの相互作用の特徴を捉える学習をしているのではなく、低分子リガンドの特徴から相互作用親和性を学習していることを示しています。

解説など

タンパク質とその低分子リガンドとの相互作用を、既存のデータセットに基づく深層学習モデルで予測する手法には様々なものが存在します。本論文では、下記に示す各アーキテクチャで代表的なモデルを対象にベンチマークしています。

  • 1次構造(アミノ酸配列)に基づくモデル:ESM-1b
  • 2Dコンタクトマップに基づくモデル:Pconsc4
  • 3D構造に基づくモデル:AlphaFold2

ベンチマーク用のデータセットには、Davis と KIBA という、標的タンパク質(キナーゼ)とその低分子阻害剤のアッセイ結果が網羅的に格納されたデータセットを使用しています。

これらを訓練データとして学習し、リガンドとの親和性を予測するモデルを構築を構築しています。

まず当然の結果として、各モデルで標的タンパク質のコンタクトマップ予測すると、その予測精度は、

AlphaFold2 > Pconsc4 >>> ESM-1b

という結果になります。コンタクト情報をもたない ESM-1b の予測精度が低いのは当然のことです。

重要なことは、これらのモデルで親和性をキナーゼ・低分子リガンド間の相互作用親和性を予測すると、3者間で大きく予測精度に違いは見られないということです。一方で、リガンドのエンコーディング手法を変更すると、親和性の予測結果は大きく変わりました。

この2つの結果を総合すると、DL モデルは、相互作用の特徴を捉える学習をしているのではなく、リガンドの特徴から学習していることになります。

タンパク質間相互作用の場合は、どのような結果になるのか気になるところです。また教師データがない場合は、構造から推測するしかないと思うので、本考察は限られた環境下での考察となることは否めません。

コメント