論文タイトル
Integrating MHC Class I visibility targets into the ProteinMPNN protein design process
出典
要旨
Inverse folding タスクで、MHC-class I 提示可能性の低い配列を設計できるチューニングモデル CAPE-MPNN を紹介した論文です。
用語
DPO: Direct Preference Optimization
解説など
筆者らは本論文で、ProteinMPNN による配列設計時に MHC-class I 提示の少ない配列を設計するようにバイアスをかけたチューニングモデル、”CAPE-MPNN”を開発しています。
手法としては、ProteinMPNN をベースに “direct preference optimization (DPO)” という手法でモデルを最適化しています。これにより、元の ProteinMPNN としての構造の再現性と、免疫原性の低減を両立しています。
DPO のタンパク質デザインへの適用事例は、過去のブログでも紹介しました。
DPOは、RHFL のように2つのセンテンス(ここではタンパク質配列)と、そのどちらが適切か(ここでは、MHC-class I 提示しやすいか)を表すラベル情報をもとに、モデルを訓練する手法です。
MHC-class I 提示のしやすさには、本目的で SOTA であるインシリコ予測ツールの、netMHCpan4.1 を利用しています。実際にはこのツールの “MHC-I presentation prediction method” は計算速度が低いため、この手法をベースに筆者らは “position weight matrix classifier” を作成して活用しています。
CAPE-MPNN の訓練・評価のデータセットには、ProteinMPNN の評価データセットだけでなく、自身でも PDB から適切なタンパク質データセットを作成して用いています。
実際に、CAPE-MPNN から配列を生成した実施例をみてみると、オリジナルの ProteinMPNN とほぼ同等の sequence recovery と TM-score を示し、かつ MHC-I 提示の低い配列が設計できていることが分かります。
本モデルのウェイトは未公開でこれからオープンとなることが期待されます。また、インシリコの予測ツール(netMHCpan4.1)のみに基づく指向性しか与えられていないので、もしウェットで得られた信頼性の高いデータがあれば、より実用途での活用が現実的になるでしょう。