【抗体デザイン】ProteinMPNNとAbLangのアンサンブルモデルで抗体配列をデザイン

論文タイトル

Antibody CDR design by ensembling inverse folding with protein language models

出典

https://cdn-api.swapcard.com/public/files/caa2cb897fb3417c8ebb6aa210abf28d.pdf

要旨

逆折り畳みモデルと抗体の言語モデルとのアンサンブルで、抗体の配列設計精度を向上させた論文を紹介します。

解説など

抗体 CDR の配列生成に関する最新手法の紹介です。

背景として、これまで inverse folding のタスクに対して、性能改善のためにタンパク質構造と配列データの双方をソースに構築されたモデルが検証されてきましたが、その相乗効果を優位に示した手法は少なかったのが現状でした。

また抗体のデザインに特化した話題として、AbMPNN のような ProteinMPNN を抗体情報を活用してファインチューニングしたモデルがあり、こちらは一定の効果を示しています。一方で複雑な訓練レジメを伴いますので、継続的に新しい手法が開発される現代において、ファインチューニングモデルが SOTA 手法から陥落するリスクを考慮すると、手法開発に対する費用対効果が高いアプローチであるのか、という懸念もあります。

これらの問題点を解決するために、筆者らは、ファインチューニング不要な、inverse folding モデルとタンパク質言語モデルのアンサンブル法を開発し、精度の高い inverse foliding を試みています。

彼らは具体的に、inverse folding モデルとして ProteinMPNN を、タンパク質言語モデルとして AbLang を活用しました。各々から出力される各ポジションごとのアミノ酸の出現確率を足し合わせて、妥当な配列を設計します。

もともとの個別モデルについては、

  • ProteinMPNN は、多様な配列を生成するが配列回収率が低い
  • AbMPNN は、配列回収率が ProteinMPNN に比べて高いが、AbLang と比べると PSSMs に対するNLLが高い
  • AbLang は、AbMPNN に比べて NLL は低いが、配列回収率がて低くエントロピーが高い

などの課題がみられましたが、ProteinMPNN+AbLang のアンサンブル法では、単独のモデルに比べてNLL と配列回収率の観点から優れた成績を示していました。

本法のように、近年の手法開発のスピードを考慮して、実益の観点から最適なモデルを選択するという考え方は、とても重要であると感じます。