論文タイトル
SPDesign: protein sequence designer based on structural sequence profile using ultrafast shape recognition
出典
要旨
逆折り畳み問題を解く新規手法である SPDesign を紹介した論文です。
解説など
前回から引き続き、配列デザイン手法の紹介です。今回紹介する SPDesign は、ジェネラルなタンパク質の配列設計を行うモデルになります。ProteinMPNN などに代表される現在主流の配列設計手法の特徴は、深層学習モデルの活用にあります。現在様々な新規手法が公開されていますが、その改善ポイントのほとんどはネットワーク構造の最適化に焦点を当てていました。
それに対して、SPDesignでは、タンパク質の物理化学的特徴にフォーカスして新しい手法を提案していることが特徴です。具体的には構造配列プロファイル(原著では、structural sequence profile または sequence profile と記載)という特徴量を定義し、これを入力情報として、MPNNネットワークから配列を生成しています。
※コラム 既存の配列デザイン手法
原著の Introduction では、深層学習を活用した配列設計モデルを歴史的な経緯をとても丁寧に言及していて大変勉強なります。以下に論文中で言及されているモデルを手法名称だけ紹介します。
- MLPネットワーク
- SPIN
- SPIN2
- CNNネットワーク
- ProDCoNN
- DenseCPD
- グラフニューラルネットワーク
- GraphTrans
- GVP
- ProteinMPNN
- Pifold
- 言語モデル
- ProteinBERT
- ESM-IF
- LM-Design
構造配列プロファイルは、次の手順によって作成されます。
- 既知タンパク質構造のデータベースから入力されたバックボーン構造に類似したフラグメントを探索
- 検索されたフラグメント構造からアライメントを作成
- アライメント構造群から配列を抽出
構造検索対象となるデータベースには、PAcluster80 が用いられています。また、検索リソースを省力化するために超高速形状認識アルゴリズムの活用など工夫が施されています。
既知構造からの配列抽出が大きく寄与する配列設計メソッドでありますので、非常に nativeness の高い配列が生成されます。実際に既存の手法である ProteinMPNN、Pifold、LM-Design と比べて、優れた perplexity や recovery rate を示すことが明らかとなっています。
また、ProteinMPNN のアミノ酸分布は、グルタミン酸 (E) とリジン (K) が非常に高い優先度を示すことが知られていますが、SPDesign に関しては、全体としてアミノ酸分布のバイアスが低いことも特徴です。