論文タイトル
Protein sequence design by conformational landscape optimization
出典
Proc Natl Acad Sci U S A. 2021 Mar 16;118(11):e2017228118.
確認したいこと
- 深層学習を用いたタンパク質デザイン手法について
要旨
trRosettaによるタンパク質デザイン手法が、大域的なエネルギーランドスケープに対して最適な構造を提案する能力があることを示しています。
解説など
Rosettaのような構造解析手法は、ロータマーライブラリからサンプリングした立体構造を、計算されたエネルギーを指標にモンテカルロシミュレーションで最適化する流れをとります。
一方で、このような手法では予測された構造のエネルギー値を計算することはできますが、その構造が、その配列が形作る最も安定な構造であるかについては保証されません。
設計した配列にとって、最低エネルギーを示す立体配座が、デザインした構造であるかを確認するためには、その配列にフォーカスして、大規模なフォールディング計算をおこなわなければなりません。当然これに必要な計算コストは高く、予測時間に大きな影響を及ぼします。
そもそも安定なタンパク質とは、必ずしも絶対値としての最小エネルギーを示す分子ではなく、安定化構造と不安定構造との相対的なエネルギー差が重要です。
本論文の趣旨は、このような背景のもと、trRosettaを利用したタンパクデザインをおこなうことで、局所解に陥らず、全体最適なエネルギー最小構造をもつ配列をデザインできることを示すことにあります。
先日の論文でお示しした通り、trRosettaは、配列の共進化情報などによらず、その残基間距離や配向を中心に構造を予測することが知られています。この距離や配向情報は確率分布として予測されます。したがって、trRosettaによるタンパクデザインは本質的に、その配列がとり得る最安定構造以外の、代替立体構造情報も併せて考慮していると期待できます。
実際に、検証用データに対してtrRosettaがデザインした構造は、Pnearスコア(設計構造とそれ以外の構造とのエネルギーギャップを示す、ボルツマン確率の推定値)が高いことが示されています。
また、trRosettaがデザインした構造は、そのタンパク質機能に対して高い予測精度を示すだけでなく、そのタンパク質の発現を予測することが可能とのことです。
このようにtrRosettaはエネルギーランドスケープの大域的な特徴を捉えることを得意としますが、一方で通常のRosettaによるエネルギー計算は、局所的なエネルギー計算の精度に対してtrRosettaを上回る可能性があります。実際に、trRosettaとRosettaを併用した手法では、単独よりも高いパフォーマンスが得られていました。
ΔGを最適化することで、安定構造の存在比率が高まるだけでなく、その発現量自体に影響を与えるというのは、タンパク質をデザインするうえで注意するべき点だと思います。明示的に予測に組み込むことで、さらなる効果が得られるのか、とても気になりました。
コメント