論文タイトル
Exploring “dark matter” protein folds using deep learning
出典
要旨
タンパク質のデザイン手法の最新報告です。
低解像度の構造モチーフを文字列形式で表現した「Sketch」と、それを設計可能なフォールディングに修正するVAEモデル「Genesis」を活用することで、非天然のデノボ構造(=ダークマタータンパク質)を設計することに成功しています。
解説など
要旨にも記載しましたが、本手法の特徴は、「Sketch」と「Genesis」の活用であり、これらを用いて完全デノボなタンパク質のデザインを行っている点にあります。
生成モデルのアーキテクチャは、以下のとおりです。
設計可能な骨格構造の生成
- 「Sketch」から粗雑な特徴量の抽出
- 「Genesis」から精緻な特徴量の抽出
配列デザイン
- 「trRosetta」ベースの配列設計モデルの活用
まず Sketch についてです。Sketch とは、3D 空間に投影される文字列形式でのタンパク質の折り畳みの表現のことです。短い2次構造モチーフの組み合わせを文字列で表します(例:A3E.A4E.B1H.A1E.A2E)。これはあくまで低解像度に2次構造の配置を表現しているにすぎません。
Sketch のデザイン可能性を向上させるために、Genesis と呼ばれる VAE モデルを使用します。これにより Sketch の距離と方向をサンプリングして、天然に存在し得る潜在表現に構造をエンコードします。Genesis では、原子座標ではなく、2次構造要素の距離と方向に基づいて特徴量を抽出します。これにより生成されたテンプレート構造を、trRosetta のガイドとして利用し、配列設計を行います。
この一連のアーキテクチャを利用して、望みの構造のサンプリングを試みています。配列のサンプリングは以下の2段階の手順を経て進行していきます。
- 候補検索ステージ
- 生成ステージ
候補検索ステージでは、 20〜30を超える二次構造とループ長の組み合わせをサンプリングします。
生成ステージでは、”self-consistency structure prediction metrics” を利用して、およそ 20,000 の配列と対応する3Dモデルを生成します。
筆者らは、この手法を用いて、天然のフォールド(ubiquitin-like、Ig-like、Jelly-roll、Rossmann)と非天然のフォールド (Top7、完全新規) それぞれの生成を試みています。いずれについても、ウェットの試験までを経て妥当な構造のタンパク質に成功しています。
未知の探索領域からタンパク質をデザインする手法の1つとして、有用なアプローチです。コードは以下から閲覧できます。ぜひご覧ください。