【ProteinMPNN】免疫原性の低い配列を設計できる inverse folding モデル、CAPE-MPNN とは

論文タイトル

Integrating MHC Class I visibility targets into the ProteinMPNN protein design process

出典

https://www.biorxiv.org/content/10.1101/2024.06.04.597365v1

要旨

Inverse folding タスクで、MHC-class I 提示可能性の低い配列を設計できるチューニングモデル CAPE-MPNN を紹介した論文です。

用語

DPO: Direct Preference Optimization

解説など

筆者らは本論文で、ProteinMPNN による配列設計時に MHC-class I 提示の少ない配列を設計するようにバイアスをかけたチューニングモデル、”CAPE-MPNN”を開発しています。

手法としては、ProteinMPNN をベースに “direct preference optimization (DPO)” という手法でモデルを最適化しています。これにより、元の ProteinMPNN としての構造の再現性と、免疫原性の低減を両立しています。

DPO のタンパク質デザインへの適用事例は、過去のブログでも紹介しました。

DPOは、RHFL のように２つのセンテンス（ここではタンパク質配列）と、そのどちらが適切か（ここでは、MHC-class I 提示しやすいか）を表すラベル情報をもとに、モデルを訓練する手法です。

MHC-class I 提示のしやすさには、本目的で SOTA であるインシリコ予測ツールの、netMHCpan4.1 を利用しています。実際にはこのツールの “MHC-I presentation prediction method” は計算速度が低いため、この手法をベースに筆者らは “position weight matrix classifier” を作成して活用しています。

CAPE-MPNN の訓練・評価のデータセットには、ProteinMPNN の評価データセットだけでなく、自身でも PDB から適切なタンパク質データセットを作成して用いています。

実際に、CAPE-MPNN から配列を生成した実施例をみてみると、オリジナルの ProteinMPNN とほぼ同等の sequence recovery と TM-score を示し、かつ MHC-I 提示の低い配列が設計できていることが分かります。

本モデルのウェイトは未公開でこれからオープンとなることが期待されます。また、インシリコの予測ツール（netMHCpan4.1）のみに基づく指向性しか与えられていないので、もしウェットで得られた信頼性の高いデータがあれば、より実用途での活用が現実的になるでしょう。