大規模データセットを用いたタンパク質安定性予測手法

論文タイトル

Protein Stability Prediction by Fine-tuning a Protein Language Model on a Mega-scale Dataset

出典

https://www.biorxiv.org/content/10.1101/2023.11.19.567747v1

要旨

461 種類の小さなタンパク質ドメインから得た 528,000シーケンスに基づいて、タンパク質の熱安定性を予測する言語モデル「ESM_therm」の開発を発表した論文です。

解説など

タンパク質の熱安定性をインシリコで予測する手法には、下記に示す手法が、これまでに公開されていました。

  • 物理ベースの手法
    • Rosetta
    • FoldX
    • MDシミュレーション
  • 機械学習ベースの手法
    • RaSP
    • ELASPIC-2

これらの手法を用いたとしても、予測の精度には改善の余地があるため、最良の手法を開発するニーズは依然としてある状況です。筆者らのアプローチは、幅広い多様性のタンパク質を対象に、同じアッセイ系で評価された熱安定性データを用いることで予測精度を改善できると考えて、手法の開発を試みています。

具体的なデータセットとしては、過去に坪山らが取得したものを利用しています。

Mega-scale experimental analysis of protein folding stability in biology and design - Nature
Large-scale assays using cDNA display proteolysis are used to measure the folding stabilities of protein domains, providing a method to quantify the effects of ...

筆者らはこのデータセットにおいて、データのリークを防ぐため、”training”、”validation” 用のデータでは観測されないトポロジーのタンパク質データを “testing” 用のデータとして使用することを強く心がけ、熱安定性の評価に進めています。

結果としては、訓練元のデータセットから抽出したテストデータに対しては、既存のツールと比較して最も高い予測精度を示していましたが、別の由来のデータセットに対しては、大きく他のツールに比べると劣っているといった結果でした。

考察として、用いたデータセットでは小さいサイズのタンパク質断片を対象としていたため、大きなサイズのタンパク質に対する予測精度が十分ではないのでは、という考察でした。一方で、多様性の偏りそのものが影響している可能性も現時点では否定できないかと思います。

やはり、データの取得方法だけではなく、配列全空間に対応するための幅広いタンパク質の多様性をデータとして含むことが重要であると感じます。