リガンド結合親和性予測のためのアクティブラーニングプロトコルのベンチマーク

論文タイトル

Benchmarking active learning protocols for ligand binding affinity prediction

出典

https://www.biorxiv.org/content/10.1101/2023.11.24.568570v1

要旨

アクティブラーニングを利用した低分子リガンドと標的タンパク質の結合親和性予測手法について、その精度をベンチマークした論文です。

解説など

低分子ライブラリから有効な阻害剤を特定するための方法として、アクティブラーニング (AL) は有益なアプローチです。この手法は、インシリコでの薬剤発見において、大量の低分子から高い結合親和性を持つリガンドを効率的に識別することを目的として活用できます。

従来の AL 研究は、単一のターゲットに対するリガンドのみを調査し、RBFE(相対結合自由エネルギー)をラベリングツールとして使用していました。また、コストを要因として考慮していなかったため、初期のバッチや探索フェーズが非常に大きくなっていました。

そこで筆者らは、異なるターゲットに対する4つの親和性データセットを用い、機械学習モデル(ガウス過程モデルと Chemprop)の性能を改めて評価しました。

本論文では、従来の RBFE の代わりに、実験的なK_i(阻害定数)またはIC50(50%阻害濃度)などの実験的に測定される活性値を使用しています​​。これらの実験値は、リガンドの結合親和性を示す指標として利用され、アクティブラーニングモデルのトレーニングやベンチマークに使用されています。

予測の結果は次のとおりです。

  • AL を使用して、少数のデータでトレーニングすることにより、RBFEラベル付けを用いて大規模なデータセット全体でトレーニングしたモデルと比較して、同等またはそれ以上のリコールが得られることが示されました​​。
  • 小さなバッチサイズでのトレーニングは、より高いリコールをもたらすことが一貫して観察されました。しかし、バッチサイズを30サンプル以下に減少させると、パフォーマンスの向上は漸進的になります​​。
  • ノイズの導入は、回帰パフォーマンスとモデルのリコールに顕著な影響を与えます。ノイズレベルが1σを超えるとリコールは急速に減少します。しかし、モデルは高いノイズ量でも予測可能性を維持し、Spearman ρ 係数が正のままであることが観察されました​​。
  • GPモデルは、ノイズの多いデータでも、化学空間内の大規模なアクティブ領域を発見する能力があることが示されています。一方、CPモデルはデータのノイズの影響を受けやすく、高レベルのノイズによって予測力を失うことが観察されました​​。