【活性予測】ディスプレイライブラリの配列データからKDを予測するモデル ProBound とは

論文タイトル

Prediction of protein–ligand binding affinity from sequencing data with interpretable machine learning

出典

Prediction of protein–ligand binding affinity from sequencing data with interpretable machine learning - Nature Biotechnology
Protein–ligand binding affinity is predicted quantitatively from sequencing data.

要旨

高スループットシーケンスデータからタンパク質–リガンド(特に転写因子とDNA)結合の親和性を、物理的に解釈可能な形で推定する新しい機械学習フレームワーク「ProBound」を提案・実証した論文です。

解説など

本論文では、ディスプレイパニングや SELEX などに由来する大規模な配列データから、活性値を予測するモデルを構築しています。LLMなどを利用した従来の機械学習手法はブラックボックス的であり、またディスプレイパニングの配列データからは、KDのような解釈可能な指標を直接的に予測できないことが課題でした。

筆者らが構築した ProBound はこれらの課題を克服した手法であり、濃縮配列のリードカウントデータから絶対的な親和性・速度論パラメータの推定を実現したことが大きな特徴です。

ProBoundは3層モデルをもつ最大尤度フレームワークです。

  1. Binding layer
    • 配列から結合自由エネルギーや酵素効率を予測。
    • デフォルトではPSAM(位置特異的親和性行列)だが、塩基間相互作用や複数TFの協調結合も拡張可能。
  2. Assay layer
    • 実験(SELEXラウンド、修飾、濃度差など)の手順をモデル化し、ライブラリ中の配列頻度を予測。
  3. Sequencing layer
    • 実際のシーケンシングによるサンプリング過程をモデル化。
    • ノイズや欠落配列があっても尤度最適化により安定したモデルを構築。

この構造により、シーケンス → 実験過程 → シーケンスデータという流れを統合的に説明するモデルを構築し、解離定数などの生物物理量を直接推定可能にしています。

ProBound 本体では、ddG や相対的な KD 値しか推定できませんが、本文ではこれに KD-seq という手法をを組み合わせて絶対 KD を算出することを可能にしています。詳細は割愛しますが、結合配列画分だけでなく非結合画分の配列データを活用することで KD を導出しています。