論文タイトル
Unlocking Protein Evolution Insights: Efficient and Interpretable Mutational Effect Predictions with GEMME
出典
要旨
変異体予測ツール GEMME の応用事例を紹介した文献です。
解説など
GEMME とは、アミノ酸配列に由来するの進化情報をもとに、タンパク質の変異予測効果を推定するツールです。特定のタスクに特化した教師ありのモデルではなく、進化情報に基づいて汎用的に活用できるように志向されているのが特徴の手法です。ローカルで動かすための Docker イメージやウェブアプリが公開されていて、広く活用できます。
GEMME は初報の他に、これまでにも何度かこの GEMME を活用した応用事例を示した論文が公開されていますが、今回紹介する論文ではこれまで未検証であった応用例を示しています。特に AlphaFold やESM など既報の state-of-the-art 手法との相関比較に焦点が当てられているように感じます。
具体的には、以下の4つのタンパク質を対象に、GEMME の有用性を紹介しています。
- thioredoxin TRX: GEMME 予測変異とウェットデータの相関解析
- homeobox protein ARX: disorderd region を予測できるか
- choromodomain of HP1: タンパク質機能に影響のある変異を予測できるか
- nuclease NucB: 組み合わせ変異の効果を予測できるか
詳細は割愛しますが、基本的には検証の結果から上記の疑問点に対して GEMME はポジティブな役割を果たしていることを主張しています。教師無しで変異効果を予測する手法ですので、タンパク質全般において重要であると考えられる熱安定性が予測できることは想像に難くありませんが、酵素活性に重要な領域も予測できるとのことです。
ESCOTT を活用して配列データに構造の情報を付与することで、GEMME の予測性能をさらに改善することも可能です。ESM-1b と比べても良好な成績を収めていることが印象的でした。タンパク質事前学習言語モデルとの使い分けが明確になることを期待しています。