【タンパク質機能予測】転写因子の機能を予測する新規深層学習モデルStrucTFactorとは

論文タイトル

Transcription factor prediction using protein 3D structures

出典

https://www.biorxiv.org/content/10.1101/2024.03.14.585054v1

要旨

転写因子としての機能をもつかどうかを判別できる深層学習モデルを紹介した論文です。

解説など

転写因子の機能を予測する深層学習モデルは過去に、

  • DeepTFactor:ワンホットエンコーディングで配列をエンベディング、CNN
  • TFnet:位置スコアリングマトリクスで配列をエンベディング、CNN/RNN

の2種類が報告されています。いずれも、転写因子であるか否かのラベル情報に基づいて訓練したモデルで、予測したいタンパク質が転写因子であるかを推論することができます。

筆者らは、既存のモデルとの差別化要素として、構造情報を特徴量に加えてモデル(StrucTFactor)を構築しました。

構造情報とはいっても、各アミノ酸ごとの2次構造分類を加えているのみで、原子配置やねじれ角、原子間距離などの情報は切り捨てています。訓練データは、Uniprot や AlphaFold 由来の55,000 構造で、モデルのアーキテクチャは CNN です。

モデルの性能は DeepTFactor との比較で評価しています(TFnetはコード未公開のため)。結果としては DeepTFactor に比べて高い予測精度を誇っており、StrucTFactor が、state-of-the-art の手法であると主張しています。

モデルは対象の配列が転写因子かどうかを分類するのみで、プロモーターの予測や、人工転写因子の設計に応用するには、まだ多くの課題が存在することが予想されます。