【抗体デザイン】一般的なタンパク質言語モデルでも、抗体の親和性増強は可能なのです

論文タイトル

Efficient evolution of human antibodies from general protein language models

出典

Nat Biotechnol. 2023 Apr 24.

Efficient evolution of human antibodies from general protein language models - PubMed

Natural evolution must explore a vast landscape of possible sequences for desirable yet rare mutations, suggesting that learning from natural evolutionary strat...

確認したいこと

深層学習を用いたタンパク質デザイン手法をベンチマークしています。

要旨

タンパク質配列を学習した自然言語モデルを抗体の分子進化に適用した論文です。

解説など

本論文では、一般的なタンパク質のアミノ酸配列によって訓練された大規模自然言語学習モデルを用いて、抗体の親和性増強改変の探索を試みています。標的抗原に対して結合することがあらかじめに知られているクローンを対象に、それらの複合体構造や変異体解析などの事前情報なしで、結合強度が上昇する改変を見出すことが目的です。

使用したモデルは、ESM-1bとESM-1v（５つの言語モデルのアンサンブル）です。

標的抗体は、下記の７種類になります（：右は標的抗原）。

MEDI8852：HA
MEDI8852 UCA：HA
ｍAb114：エボラウイルスの糖タンパク質（GP）
mAb114 UCA：エボラウイルスの糖タンパク質（GP）
S309：SAR2-CoV-2スパイクタンパク質
REGN10987：SAR2-CoV-2スパイクタンパク質
C143：SAR2-CoV-2 Wuhan-Hu-1 スパイクタンパク質

親和性増強改変は、２サイクルの探索ステップから同定されています。

１ステップでは、一残基置換体の候補をモデルから探索しています。対象領域はCDRとフレームワークの両方を含む、重鎖・軽鎖の可変領域全長です。モデル提案した改変をBLIで測定して、結合を維持、または増強している改変を選抜しています。１抗体あたり、8-14種類の改変を実評価に進めています。

２ステップでは、１ステップ目で得られた改変の組み合わせを検討しています。こちらでは１抗体あたり1-11種類の改変を評価しています。

結果としては、いずれの抗体においても親和性増強改変が認められているものの、１０倍を超える変異は、mAb114 UCAとC143の2種類しかありませんでした。挿入された変異の半分はフレームワークであったとのことです。また親和性増強改変の多くが Tm の上昇に関与していたとのことですので、タンパク質の熱安定性が結合強度に寄与している可能性もあるかと思います。一般的なタンパク質配列を訓練データとしたモデルから生成された改変ですので、知られた抗体レパトアのアミノ酸出現頻度とは、異なる残基が優先的に生成されることもあるそうです。

意外にも、抗体配列から学習したモデルに比べて、提案改変の親和性増強程度は大きく、一般的なタンパク質言語モデルの優位性が示される結果となっていました。

ポイントは、フレームワークまで探索範囲を広げることと、小規模の探索・活用を繰り返すことで、それを言語モデルを用いることで現実的なスループットを達成することに価値があると思っています。