抗体ペアリングの新時代:エンコーダー・デコーダーモデルpAbT5の可能性

論文タイトル

Generative Antibody Design for Complementary Chain Pairing Sequences through Encoder-Decoder Language Model

出典

Generative Antibody Design for Complementary Chain Pairing Sequences through Encoder-Decoder Language Model
Current protein language models (pLMs) predominantly focus on single-chain protein sequences and often have not accounted for constraints on generative design i...

要旨

抗体の重鎖または軽鎖に対応するペア配列を生成できるモデル、pAbT5 の開発を紹介した論文です。

解説など

抗体の構造予測・配列デザインモデルは数多いですが、VH/VL ペアリングを予測・デザインする手法は、本手法で紹介された pAbT5 特有のものです。このモデルは、抗体の一方の鎖(例えば重鎖)の配列を入力として受け取り、それを補完する鎖(例えば軽鎖)の配列を予測します。pAbT5 は、配列生成に特化しており、抗体構造の情報は生成しません。このアプローチは、天然の抗体配列群におけるペアリング傾向を理解するために有効です。

本モデルのベースは、ProtT5-XL-UniRef50 です。このモデルから16万のVH/VL の配列ペアをデータセットとして使用して、チューニングをおこなっています。

結果の項では、本手法から生成される配列が、以下に示すような他のモデルに比べて、高い recovery rate を示すことを明らかにしています。

  • ProGen2-OAS
  • IgLM

各ジャームラインごとの recovery rate も確認しており、やはり高い出現頻度を示すジャームライン(例えばIGHV3)では、recovery rate は高いものの、小規模なジャームラインでは低い結果であることがわかっています。

免疫から取得した抗体の遺伝子クローニングにおいても、適切なVH/VLペアリングを探索するために使えると嬉しいな、と思いました。