論文タイトル
Language models enable zero-shot prediction of the effects of mutations on protein function
出典
確認したいこと
深層学習を利用した、タンパク質構造予測・デザイン手法をベンチマークしています。
要旨
タンパク質変異効果予測を、大規模なタンパク質言語モデルを利用して、ゼロショットラーニングできるか検証した論文です。
解説など
解きたいタスクに対する教師データがない状態で、予測モデルを構築することをゼロショットラーニングといいます。
一般的に教師なし学習といわれる手法は、ラベルのないデータを活用して、ラベルとは関係のない予測タスクに取り組むための手法です。たとえば、活性情報が付与されていないタンパク質配列データでも、その配列に従って、データ群をクラスタリングすることは可能です。
それに対して、ゼロショットラーニングというのは、ラベルのないデータしか活用しないにも関わらず、そのラベル自体に関する情報を予測することを指します。先の例では、配列からその活性自体を予測する、ということになります。
ゼロショットラーニングは、あくまで問題設定に用いられる言葉であり、そのための手法がなんであるかは問いません。本論文では、BERTを筆頭とするタンパク質配列の大規模言語モデルを使って、アミノ酸変異に対する活性変化を予測できるか検証しています。
具体的な問題設定としては、既存の41種類の突然変異スキャニングデータセットを用いて、モデルが活性を予測できているか検証しています。比較検証するモデルは、MSAを用いた手法、言語モデルを用いた手法、その2つを組み合わせた手法の3つに大きく分類されます。
MSAを用いた手法
- PSSM
- EV-Mutation
- DeepSequence
言語モデルを用いた手法
- UniRep
- TAPE
- ProtBERT
- ESM-1b
- ESM-1v
MSAと言語モデルを組み合わせた手法
- MSA Transformer
結果としては、既存のMSAベースの手法である、EV-MutationやDeepSequenceと比べると優れた成績を示すものの、改善の程度は微々たるもので、課題を解決できたとは言えない状況に感じました。
このような手法は、訓練に使用したデータ群の配列的特徴の出現頻度が、その活性と相関しているという仮説に基づいています。そこには予測手法の限界だけの問題ではなく、上記の仮説の妥当性が、成績に大きく反映されます。与えるデータの工夫こそ、成績の向上に寄与するでしょう。
コメント