【de novoデザイン】ProteinSolverでデザインしたタンパク質をAlphaFold2で構造予測

論文タイトル

Designing novel protein structures using sequence generator and AlphaFold2

出典

Designing novel protein structures using sequence generator and AlphaFold2
Protein structures and functions are determined by a contiguous arrangement of amino acid sequences. Designing novel protein sequences and structures with desir...

確認したいこと

深層学習を利用した、タンパク質構造予測・デザイン手法をベンチマークしています。

要旨

ProteinSolverを用いてデザインしたタンパク質の評価指標の1つとして、AlphaFold2による予測構造を利用したデザイン事例です。

解説など

ProteinSolverは、以前に以下の記事で紹介しました。

GNNのアーキテクチャで、大規模なタンパク質群の配列と残基間距離を学習したモデルです。このモデルからタンパク質の配列を生成することができます。例えば、鋳型となるタンパク質構造の特定の領域を対象に、他の部位をマスク(構造の固定化)したうえで、標的の領域をデノボデザインする、などの活用方法が知られています。

ProteinSolverの出力では構造の情報を得ることができません。得られるのは配列情報のみです。したがってデザイン配列の価値(その先に評価に進めるかどうか)を判断することが困難です。

本研究では、ProteinSolverでデザインした配列をAlphaFold2に供して、予測した構造をデザイン配列の評価に活用しています。具体的には、デザイン前の鋳型構造と、デザイン後のAlphaFold2予測構造のRMSDを算出することで、鋳型構造との構造的な差異を評価しています。1Åを超える高いRMSDであれば、鋳型構造とは異なる新規性の高い配列をデザインできたと、判断するということです。

本論文内では、PTP1BとP53の2種類のタンパク質対して、上記のデザインをおこない、新規性の高いデザインタンパク質を選抜しています。デザインタンパク質の結晶構造は取得しておらず、すべてドライでの評価にとどまっています。

デザインした配列のインシリコでの新規性評価は、一般的には配列情報に基づくrecovery rateで算出されることが多いです。しかしrecovery rateは決して信頼性は高くない指標ですので、構造情報を加味した評価が必要である点については納得です。

安定構造としての妥当性と、デザイン構造の新規性は、天然(または鋳型)構造をベンチマークとする限り、相反する関係にあります。それらの総合的なバランスを評価するアプローチをとるか、完全に新規である非天然な安定構造を見出すアプローチをとるか、は重要な視点と感じました。

コメント