論文タイトル
Efficient evolution of human antibodies from general protein language models
出典
Nat Biotechnol. 2023 Apr 24.

確認したいこと
深層学習を用いたタンパク質デザイン手法をベンチマークしています。
要旨
タンパク質配列を学習した自然言語モデルを抗体の分子進化に適用した論文です。
解説など
本論文では、一般的なタンパク質のアミノ酸配列によって訓練された大規模自然言語学習モデルを用いて、抗体の親和性増強改変の探索を試みています。標的抗原に対して結合することがあらかじめに知られているクローンを対象に、それらの複合体構造や変異体解析などの事前情報なしで、結合強度が上昇する改変を見出すことが目的です。
使用したモデルは、ESM-1bとESM-1v(5つの言語モデルのアンサンブル)です。
標的抗体は、下記の7種類になります(:右は標的抗原)。
- MEDI8852:HA
- MEDI8852 UCA:HA
- mAb114:エボラウイルスの糖タンパク質(GP)
- mAb114 UCA:エボラウイルスの糖タンパク質(GP)
- S309:SAR2-CoV-2スパイクタンパク質
- REGN10987:SAR2-CoV-2スパイクタンパク質
- C143:SAR2-CoV-2 Wuhan-Hu-1 スパイクタンパク質
親和性増強改変は、2サイクルの探索ステップから同定されています。
1ステップでは、一残基置換体の候補をモデルから探索しています。対象領域はCDRとフレームワークの両方を含む、重鎖・軽鎖の可変領域全長です。モデル提案した改変をBLIで測定して、結合を維持、または増強している改変を選抜しています。1抗体あたり、8-14種類の改変を実評価に進めています。
2ステップでは、1ステップ目で得られた改変の組み合わせを検討しています。こちらでは1抗体あたり1-11種類の改変を評価しています。
結果としては、いずれの抗体においても親和性増強改変が認められているものの、10倍を超える変異は、mAb114 UCAとC143の2種類しかありませんでした。挿入された変異の半分はフレームワークであったとのことです。また親和性増強改変の多くが Tm の上昇に関与していたとのことですので、タンパク質の熱安定性が結合強度に寄与している可能性もあるかと思います。一般的なタンパク質配列を訓練データとしたモデルから生成された改変ですので、知られた抗体レパトアのアミノ酸出現頻度とは、異なる残基が優先的に生成されることもあるそうです。
意外にも、抗体配列から学習したモデルに比べて、提案改変の親和性増強程度は大きく、一般的なタンパク質言語モデルの優位性が示される結果となっていました。
ポイントは、フレームワークまで探索範囲を広げることと、小規模の探索・活用を繰り返すことで、それを言語モデルを用いることで現実的なスループットを達成することに価値があると思っています。
コメント