【タンパク質デザイン】配列モデルからペプチドバインダーデザイン

論文タイトル

De Novo Generation and Prioritization of Target-Binding Peptide Motifs from Sequence Alone

出典

De Novo Generation and Prioritization of Target-Binding Peptide Motifs from Sequence Alone
Designing binders to target undruggable proteins presents a formidable challenge in drug discovery, requiring innovative approaches to overcome the lack of puta...

確認したいこと

深層学習を用いたタンパク質デザイン手法をベンチマークしています。

要旨

タンパク質の配列データを学習セットとして構築されたペプチドバインダーデザインモデルについて紹介した論文です。

解説など

この論文では、タンパク質のアミノ酸配列データを利用した構築したモデルからペプチドバインダーをデザインする手法を紹介しています。この目的で筆者らは、DALL-E 2と呼ばれるテキストから画像を生成するモデルを利用しています。代表的な画像生成モデルであるDALL-E2の詳細は、下記のページなどを参照してください。

OpenAI の超高品質テキスト→画像生成モデル DALL·E 2 の技術詳細を解説
先週、テキストから画像を高い品質で生成できるモデル「DALL·E 2」が OpenAI が発表されました。初代「DALL·E」から一年あまりで、さらにテキストに忠実でリアルな画像生成を実現し、ネットを賑わせました。本記事では、「DALL·E 2」の技術詳細に注目し、論文を理解するための基礎となる技術を順に追って解説しま...

筆者らは、このモデルをペプチド配列の生成に利用するため、PDBに登録されたペプチド・タンパク質の複合体構造の配列情報をデータセットに新たなモデルを作成しました。配列のエンベディングにはESM-2を用いています。ノイズを標準ガウス分布からサンプリングし、配列をデザインしていきます。

アルゴリズムはパイプライン化され、その手法はAF-Multimerを用いて評価されています。

本手法は、純粋に配列データから構築されたモデルであり、RFDiffusionなどの構造ベースのデノボバインダーデザイン手法とは異なっている点が特徴です。ペプチドバインダーに特化した学習モデルを用いているという点においては、このニーズにおける本手法の有用性は高い可能性があります。筆者らは抗体のCDR向けに改良したモデルも構築中とのことで、今後の成果が期待されます。

コメント