【deep learning】元祖タンパク質事前学習モデルTAPEの紹介

論文タイトル

Evaluating Protein Transfer Learning with TAPE

出典

Evaluating Protein Transfer Learning with TAPE
Protein modeling is an increasingly popular area of machine learning research. Semi-supervised learning has emerged as an important paradigm in protein modeling...

確認したいこと

深層学習を利用した、タンパク質構造予測・デザイン手法をベンチマークしています。

要旨

タンパク質の事前学習言語モデルである、TAPE(Tasks Assessing Protein Embeddings)を提案した論文です。

解説など

TAPEとは、事前学習されたタンパク質の言語モデルです。Pfamから取得したタンパク質のデータセットを利用して、大規模事前学習モデルを構築しています。TAPEでは、以下に示す5つのタスクを評価することができるのが特徴です。

  • 2次構造予測
  • 相互作用予測
  • ホモロジー予測
  • GFPの蛍光強度変化予測
  • 熱安定性変化予測

TAPEを以下の5つのアーキテクチャに適応し、それぞれのモデルについて、この5つのタスクを解くことで、各モデルの性能を評価しています。

  • LSTM
  • Supervised LSTM
  • UniRep mLSTM
  • ResNet
  • Transformer

解析の結果、各タスクごとに最良の予測精度を示すモデルが異なることから、

  • いずれのモデルも汎用性の観点で課題がある
  • 予測モデルは、複数のタスクで総合的にベンチマークするのが望ましい

という示唆が得られています。

追加調査したいこと

最近では、ProteinBERTなど、TAPEを拡張したモデルも開発されています。本記事でも、これまでに既報の事前学習モデルを紹介してきました。

また、特定のタンパク質ファミリー(抗体など)に特化したモデルも公開されています。現在開発されている事前学習モデルを、体系的に理解する必要がありそうです。

コメント