【大規模データ】ヒトタンパク質の変異体を網羅解析!

論文タイトル

Site-saturation mutagenesis of 500 human protein domains

出典

Site-saturation mutagenesis of 500 human protein domains - Nature
Large-scale experimental analysis of Human Domainome 1, a library containing more than 500,000 missense mutation variants across more than 500 human protein dom...

要旨

ヒトタンパク質の改変体に対する安定性を網羅的に調べたデータを取得し、その特徴を解析した論文です。

解説など

筆者らは、DNA のハイスループット合成技術と、細胞内発現を指標としたタンパク質安定性評価系をもとに、500 種類ものヒトタンパク質の改変体 500,000 種類を解析しました。

DNA 合成は、microchip-based massive in parallel synthesis (mMPS) technology を活用しています。計 1,248 種類のタンパク質ドメインに対して全領域のアミノ酸を鋳型以外の 19 種のアミノ酸に変異させた、1,230,584 種の DNA 合成を試みています。

構築した DNA ライブラリは酵母に遺伝子導入しています。各遺伝子を DHFR3 遺伝子との融合タンパク質にすることで、標的タンパク質発現に伴って細胞増殖する系を活用しました。最終的に細胞から抽出した遺伝子を NGS 解析することで、きちんと発現できたタンパク質のレパトアを解析しています。

解析結果として、以下のような熱安定性に関わる傾向が確認されています。

  • コア領域の極性変異や表面領域の疎水性変異の影響が強い
  • アミノ酸種類の中ではプロリンの影響が一番大きい
  • ホモロジーの高いタンパク質間で、変異効果は保存されている
  • エピスタシスの熱安定性への寄与は大きくない

本論文で得られたデータセットを活用して、既存の熱安定性予測モデルの予測精度と比較すると、ThermoMPNN が一番精度が良いことがわかります。またドメインの種類の中では、small zinc-finger domain が最も予測が難しいことが分かりました。

変異によるタンパク質の物性予測に関わる情報は、タンパク質工学においても重要な情報です。レポジトリの情報が幅広く活用されることを期待しています。

GitHub - lehner-lab/DiMSum: An error model and pipeline for analyzing deep mutational scanning (DMS) data and diagnosing common experimental pathologies
An error model and pipeline for analyzing deep mutational scanning (DMS) data and diagnosing common experimental pathologies - lehner-lab/DiMSum