論文タイトル
Contextual protein and antibody encodings from equivariant graph transformers
出典
要旨
マスク言語モデルを利用したタンパク質の配列設計手法を開発しています。抗原結合を伴う抗体の配列設計への適用を試みています。
解説など
本手法は、ESM や ProteinMPNN に代表されるような逆折り畳み問題問題を解決する配列設計モデルです。既存の手法は、構造エンコーダーと配列デコーダーの組み合わせで配列設計するのに対して、筆者らの手法は、masking language model を活用して、配列と構造両方のコンテキストを学習させたモデルになります。
彼らのアプローチは、Shi らの UniMP が源泉になっていますので、詳細を理解したい方は、原著をお読みになることをお勧めします。
本論文では、特定のコンテキストに特化した問題解決に注力して本手法を活用しています。特に抗体の配列設計に対するモデルの成績について、良く検証されている印象です。
このような特化型の問題適用を見越して、下記に示す階層的なタスクでモデルをトレーニングしています。
- PDB50 データセットのモノマータンパク質で訓練
- MaSIF や DIPS データセットのタンパク質間相互作用界面でファインチューニング
- SAbDAb と AlphaFold2 データセットの抗体-抗原複合体構造でファインチューニング
結果として、②のファインチューニングの効果に比べて、③のチューニングの方が大幅な recovery rate の改善効果を示すことがわかりました。
抗体の配列設計への適用については、既報のトラスツズマブ(抗HER2抗体)の変異体のデータセットを活用して、抗原結合能を保持する CDR を設計できているかどうかで検証をしています。本論文における結果からは、抗体データでファインチューニングしたモデルは、実験的にスクリーニングされた配列傾向を再現することに、部分的に(特定の残基番号に関して)成功しているようすです。
本文を読んで、AbMPNN や IgMPNN との性能比較にとても興味がわきました。実施例が公開されましたら、また本記事でも紹介していきたいと思います。