【バインダーデザイン】拡散モデルと自作データセットを使って新規ペプチドバインダーデザイン手法を開発

論文タイトル

Target-Specific De Novo Peptide Binder Design with DiffPepBuilder

出典

Target-Specific De Novo Peptide Binder Design with DiffPepBuilder
Despite the exciting progress in target-specific de novo protein binder design, peptide binder design remains challenging due to the flexibility of peptide stru...

要旨

ペプチドバインダーのデザイン手法 DiffPepBuilder を紹介した論文です。

解説など

筆者らは標的タンパク質に結合するペプチド性のバインダーデザインを行う新規手法を公開しました。既存のバインダーデザイン手法で成功実績の多い “miniprotein” (2次構造の折り畳みは保持しつつ、独立性の高いドメインを複数有していないスキャフォールド)に比べるとペプチドバインダーデザインはハードルが高いと考えられます。その理由としては大きく2つあります。一つはペプチドの構造柔軟性が高いこと、二つ目は深層学習ベースの手法を前提とすると、モデル構築に必要なペプチド・タンパク質複合体データが少ないことが挙げられます。特にシングル nM レベルの高親和性データの数が非常に少ないと言われています。

筆者らは、この2つ課題の解決するために DiffPepBuilder という新規のデザイン手法を開発しました。この手法では、その名のとおり拡散モデルに基づいてバインダーの構造と配列を生成することができます。DiffPepBuilder は、

  • diffusion-based generative procedure
  • post-processing procedure

の2つで構成されています。前者はリニアペプチドデザインの構造と配列を生成するためのもので、モデルのアーキテクチャはFig.1に公開されています。後者は、SSBuilder によりリニアペプチド上の一部をシステイン残基に置換し、ジスルフィド結合により環状ペプチドをデザインするプロセスです。このプロセスにより、先述した構造柔軟性の課題を解決することができます。

またモデルの訓練に用いられるデータセットにも工夫があります。筆者らが構築した “PepPC-F” というデータセットはペプチド・タンパク質複合体の合成データです。既知のペプチド・タンパク質複合体では数が少ないので、PDBに登録された膨大にあるタンパク質・タンパク質複合体の中から、そのインターフェースを8-30残基のペプチド単位で抜き出した15,000個程度データを作成しています。ペプチドフラグメントを切り出していることで人工的なデータ抽出による懸念がありますが、特筆して疎水性残基が表面に露出しているなどの傾向はないとのことです。

ウェット評価を含めたデザイン実施例はありませんが、インシリコレベルの解析で以下2つの既存手法に比べて、DiffPepBuilder は優れた成績を示しているとのことです。

  • RFDiffusion + ProteinMPNN
  • AfDesign

DiffPepBuilderで生成されたデザインは、水素結合を形成していない極性原子の数が少ないとのことで、デザインモデルと実際の構造との差異の小さいバインダーを設計できることが期待されます。

コードはこちら。

GitHub - YuzheWangPKU/DiffPepBuilder: Official repository for Target-Specific De Novo Peptide Binder Design with DiffPepBuilder
Official repository for Target-Specific De Novo Peptide Binder Design with DiffPepBuilder - YuzheWangPKU/DiffPepBuilder