【タンパク質デザイン】拡散モデルで望みの2次構造をもつタンパク質をデザインする方法

Generative design of de novo proteins based on secondary-structure constraints using an attention-based diffusion model

深層学習を用いたタンパク質デザイン手法をベンチマークしています。

拡散モデルを利用して、望みの2次構造の構成を示すタンパク質を生成する手法について紹介した論文です。

拡散モデルを用いたタンパク質のデザイン手法について紹介した論文です。

コードが公開され、汎用的な使い方が可能な、代表的な手法であるRFdiffusionについては、以下の記事で以前に紹介しました。

これに対する本手法の特徴は、αヘリックスやβシートなどの2次構造を条件付けして、タンパク質構造を生成できる点にあります。モデルAとモデルBの２種類開発しており、それぞれ異なる条件付けで、タンパク質が生成できます。

モデルAでは、以下のような８要素のリストを条件付けとして指定します。

[0, 0.7, 0.07, 0.1, 0.01, 0.02, 0.01, 0.11]

それぞれの要素は、2次構造の要素比を表しています（合計すると１となる）。左から順に以下の2次構造に対応します。コロン左は、2次構造を一文字表記であらわすDSSPコードです。

これで、それぞれの2次構造を要素比どおりに含むタンパク質が生成されます。

対してモデルBでは、アミノ酸残基単位で、そのアミノ酸が形成する2次構造を指定することができます。例は次のとおりです。

~~EEESSTTS~SEEEEEEEEE~SBS~EEEEE~~

上記のようにアミノ酸ポジション一つずつにDSSPコードを指定します。この条件に基づいて生成されたタンパク質は、構造的な制約から入力通りとまではいきませんが、できるだけ近い2次構造を示す構造が生成されます。

本手法は、主鎖座標だけではなく、メソッド内でアミノ酸配列も生成することができます。

医薬品開発における分子標的薬のような複雑な相補界面領域の生成に向く手法ではありませんが、独自性のある生成手法です。筆者らは線維材料などタンパク質性の工学応用に重要な役割を果たすと述べています。

こちらのレポジトリに、Jupyter notebook でコード例が格納されています。