論文タイトル
AlphaFold2 knows some protein folding principles
出典

要旨
AlphaFold を用いてタンパク質の時系列的なフォールディングプロセスを予測する手法を紹介しています。
解説など
” structure prediction”と、”folding prediction”は厳密には異なる意味を持ちます。前者はタンパク質の再安定な構造を予測することを指しますが、後者は再安定構造に進むためのフォールディング過程を予測することを指します。AlphaFold2 (AF2) のもともとの目的は “structure prediction” に取り組むための手法ですが、筆者らは AF2 が潜在的にタンパク質のフォールディング過程も学習していると仮定し、その予測に用いることができるかどうか検証しています。
具体的なフォールディング予測の方法ですが、まず AF2 でタンパク質構造を予測する場合は通常 MSA を使用します。これは標的タンパク質に関する進化情報をモデルに与える役割を果たします。しかし進化情報はタンパク質の最終構造に関わる情報を積極的に活用すると考えられます。そこで筆者らは MSA や initial template は使用せず、初期入力アミノ酸配列のみからタンパク質を構造を予測するプロセスを採用しています。当然そこから生成される予測構造はデフォルト条件と比べると再安定構造とはかけ離れる可能性が高いです。そこで、得られた予測構造を鋳型として入力配列とともに与えて AF2 で構造予測をおこないます。この “iteration” を繰り返すことで、最終的に再安定構造に近いフォールドを取得できます。この過程で得られた各ステップごとの予測構造の遷移が、天然のタンパク質のフォールディングプロセスに類似しているのではないか、というのが筆者らの仮説です。
筆者らはこの仮説を以下の4種類のタンパク質に対して適用することで検証しています。
- protein G
- protein L
- ubiquitin
- SH3
これらの標的タンパク質はいずれも実験的にそのフォールディングプロセスが推察されていますが、実際に iteration を繰り返すごとに予測構造の pLDDT スコアが改善する傾向にあり、中途ステップの予測構造は既知の構造中間体に類似しているとのことでした。Physics based sampling に基づく folding 予測(Rosettaなど)では、中間構造体ごとのエネルギー値は大きく上下に変動する傾向があるのですが、本手法を利用すると滑らかにエネルギーが最小値に推移していく傾向がみえるそうです。
また、この手法により予測される構造の傾向から以下のような特徴があることも明らかにしています。
- AF2 はαヘリックス構造を初期にフォールディングさせやすい傾向がある
- 局所的な構造が先にフォールディングし、そのあとで全体構造が最適化される
筆者らは、この手法を最終的に 7,000 個のタンパク質のフォールディング予測にも適用し、その汎用性を評価しています。ケースによって予測がうまくいかない例外事例もあるとのことで、そのあたりの解消が今後の課題になりそうです。モデルの性能予測には、検証用のデータが必要ですが充実したデータセットが少ないことも現時点での大きな課題であると述べています。