【MLモデル】Saprot : オープンコミュニティで構築された高性能タンパク質基盤モデル

SaprotHub: Making Protein Modeling Accessible to All Biologists

タンパク質の機能予測に汎用的に活用できる深層学習モデル Saprot とその周辺基盤について紹介した論文です。

新しいタンパク質の深層学習モデルの紹介です。本記事で紹介する Saprot は、変異体予測の代表的なベンチマークデータセットである ProteinGym で、長期間にわたってリーダーボードに名を連ねたモデルとして有名です。

本モデルは、Open Protein Modeling Consortium (OPMC) というオープンコミュニティで開発されました。

Saprot は、タンパク質の3次元構造を表現できるモデルです。構造情報は Foldseek のエンコーディングモデルでエンベディングし、各々のタンパク質情報を structure-aware token (SAトークン）として表現しながら、その構造的特徴をとらえたモデルとして構築されます。

モデルのネットワークアーキテクチャは、ESMモデルと同じく、bidrectional Transformer です。AlphaFold2 で予測された構造情報を中心に学習されます。

このファンダメンタルモデルは、独立した１０のタスク（安定性、結合サイト同定、変異体予測など）に対して、下記のベンチマークモデルに比べて同等もしくは優れた成績を収めています。

また、このモデル自体はデザインに対して特化した手法ではないため、inverse folding タスクの成績に関しては ProteinMPNN に劣りますが、その生成コストは ProteinMPNN に比べて1/20と高速に実行できるそうです。

モデルは Google Colaboratory で利用することができます (ColabSaprot)。またこのファンダメンタルモデルをファインチューニングしたモデルを個別に作成して、公開・共有することができる SaprotHub というインターフェースプラットフォームも開発しています。

多様なモデルを簡便に構築して、公開できるように、モデルのファインチューニングは、integrating lightweight adapter networks を活用し、adapter に関連するパラメータのみを更新する手法を採用しています。

本モデルから、さまざまな個別タスクに特化したモデルが公開されることが期待されます。