【de novoデザイン】トランスフォーマーベースの深層学習モデルでタンパク質デザイン

A deep unsupervised language model for protein design

大規模なタンパク質の構造データベースからモデルを構築して、天然のタンパク質の特徴を持ちながら進化的に無関係な配列を生成する手法(ProtGPT2)を提案しています。

ProtGPT2には、その名のとおり、生成トランスフォーマーベースの自然言語処理モデルGPT-2が使用されています。

既存の配列のサンプリング手法には以下の特徴がありました。

本手法では、上記の課題を解決するために、ランダムサンプリングに供する配列数(k)を大きくすることで、妥当な配列が出力されるように最適化しています。訓練用のデータセットには、UniProtを50％の同一性でクラスタリングしたUniRef50（UR50）を利用しています。

実際にProtGPT2から生成された配列を評価すると、以下の特徴があったとのことです。

本手法により、わずか数秒で球状タンパク質を生成することが可能であると言及されています。深層学習ベースであることから、既往のMDシミュレーションと比較して圧倒的に速い速度で配列が生成できるはずです。

ProtGPT2とデータセットは、HuggingFaceリポジトリから利用できます。ぜひお試しいただき、使用感などについてコメントをいただけますと幸いです。