論文タイトル
Evaluating Protein Transfer Learning with TAPE
出典
Evaluating Protein Transfer Learning with TAPE
Protein modeling is an increasingly popular area of machine learning research. Semi-supervised learning has emerged as an important paradigm in protein modeling...
確認したいこと
深層学習を利用した、タンパク質構造予測・デザイン手法をベンチマークしています。
要旨
タンパク質の事前学習言語モデルである、TAPE(Tasks Assessing Protein Embeddings)を提案した論文です。
解説など
TAPEとは、事前学習されたタンパク質の言語モデルです。Pfamから取得したタンパク質のデータセットを利用して、大規模事前学習モデルを構築しています。TAPEでは、以下に示す5つのタスクを評価することができるのが特徴です。
- 2次構造予測
- 相互作用予測
- ホモロジー予測
- GFPの蛍光強度変化予測
- 熱安定性変化予測
TAPEを以下の5つのアーキテクチャに適応し、それぞれのモデルについて、この5つのタスクを解くことで、各モデルの性能を評価しています。
- LSTM
- Supervised LSTM
- UniRep mLSTM
- ResNet
- Transformer
解析の結果、各タスクごとに最良の予測精度を示すモデルが異なることから、
- いずれのモデルも汎用性の観点で課題がある
- 予測モデルは、複数のタスクで総合的にベンチマークするのが望ましい
という示唆が得られています。
追加調査したいこと
最近では、ProteinBERTなど、TAPEを拡張したモデルも開発されています。本記事でも、これまでに既報の事前学習モデルを紹介してきました。
また、特定のタンパク質ファミリー(抗体など)に特化したモデルも公開されています。現在開発されている事前学習モデルを、体系的に理解する必要がありそうです。
コメント