【タンパク質デザイン】タンパク質の indel を含むバリアント生成が自由自在に、Raygun について紹介します

論文タイトル

Miniaturizing, Modifying, and Augmenting Nature’s Proteins with Raygun

出典

要旨

標的鋳型タンパク質の機能を保持したまま、分子サイズを変更したり、配列多様性を増すための分子設計技術である Raygun を紹介した論文です。

解説など

筆者らは、鋳型タンパク質の機能を保持したまま、その構造的もしくは配列的特徴を変化させる分子設計技術の開発を試みました。既存の “template-guided design” は、組み合わせ改変まで深く考慮できなかったり、タンパク質鎖の欠損・延長を伴うバリアント生成はできないことが多いので、この課題を解決することが本手法の目的です。拡散モデルベースの手法も、鋳型構造に基づいて条件付き生成ができますが、結論を先出すると、本論文で紹介されている手法は拡散モデルベースの手法に対して高い多様性の配列を 100 倍程度高速に生成できると主張しています。

そもそも indel を伴うデザインがなぜ難しいかというと、タンパク質のエンベディングは基本的に残基単位で処理されるため、タンパク質の長さが変わるとエンベディングサイズが異なることが大きな理由です。そこで筆者らは 50 残基以上のタンパク質を一律 64,000 次元の正規分布で表現する手法を考案しました。具体的には、標的タンパク質を 50 個のセグメント配列に分割して、ブロックごとにエンベディングします（セグメントの配列長は全長タンパク質に依存して可変ということになります）。エンベディングは多次元空間のポイントとしてではなく、ガウス分布に基づく確率分布として表現されます。

エンコーダーで、可変アミノ酸長から固定のエンベディングサイズに変換し、デコーダーであらためて可変アミノ酸長に変換するエンコーダ・デコーダアーキテクチャによりタンパク質配列を生成します。

訓練データには、多様な長さのタンパク質を用いることが重要であると考えられますので、彼らは Uniref50 から、100-1000 アミノ酸残基長のタンパク質を 19 のビンに分けて、各ビンに対して 5000配列ずつ抽出して利用しています。個別タスク用途のためのモデルのファインチューニングには、エンコーダーの重みは固定化してデコーダーのみを訓練させます。

実施例において生成された配列は、ESM-2 の pLL や、AF3 に基づく TM-score や pLDDT でフィルタリングしてウェットで評価する流れです。

デザイン時には、noise パラメータを変更することで鋳型に対する配列多様性を調整でき、またタンパク質長パラメータを入力することでその配列長のデザインを生成することができます。

実際に、下記のような多様な長さのタンパク質に対して、pLDDT や TM-score の高いバリアントが生成できることが確かめられています。