論文タイトル
A deep unsupervised language model for protein design
出典

A deep unsupervised language model for protein design
Protein design aims to build new proteins from scratch thereby holding the potential to tackle many environmental and biomedical problems. Recent progress in th...
確認したいこと
- タンパク質デザインの最新手法
要旨
大規模なタンパク質の構造データベースからモデルを構築して、天然のタンパク質の特徴を持ちながら進化的に無関係な配列を生成する手法(ProtGPT2)を提案しています。
解説など
メソッド
ProtGPT2には、その名のとおり、生成トランスフォーマーベースの自然言語処理モデルGPT-2が使用されています。
既存の配列のサンプリング手法には以下の特徴がありました。
- Greedy search:繰り返し配列が多い(原著図1a)
- Beam search:繰り返し配列が多い(図1b)
- Random sampling:意味をなさない(degenerate)配列が多い(図1c)
本手法では、上記の課題を解決するために、ランダムサンプリングに供する配列数(k)を大きくすることで、妥当な配列が出力されるように最適化しています。訓練用のデータセットには、UniProtを50%の同一性でクラスタリングしたUniRef50(UR50)を利用しています。
結果
実際にProtGPT2から生成された配列を評価すると、以下の特徴があったとのことです。
- ProtGPT2が生成する二次構造は、天然の球状ドメインに似た配列を生成する
- 天然の配列とは遠い関係にあり、繰り返しではない配列を効果的に生成する
- 安定に折りたたまれた構造から、順番に生成する
- 天然のリガンド相互作用残基の側鎖が保存されている
本手法により、わずか数秒で球状タンパク質を生成することが可能であると言及されています。深層学習ベースであることから、既往のMDシミュレーションと比較して圧倒的に速い速度で配列が生成できるはずです。
ProtGPT2とデータセットは、HuggingFaceリポジトリから利用できます。ぜひお試しいただき、使用感などについてコメントをいただけますと幸いです。

nferruz/ProtGPT2 · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.


コメント