【抗体デザイン】インシリコデザインで、高度な特徴量の解析は不要

論文タイトル

IMPROVING ANTIBODY AFFINITY USING LABORATORY DATA WITH LANGUAGE MODEL GUIDED DESIGN

出典

Handle Redirect

要旨

言語モデルとファージディスプレイパニングのデータを活用して、抗体の親和性増強のための改変探索を行うアルゴリズムを開発したことを報告しています。

解説など

筆者らは、言語モデルとファージディスプレイパニングのデータを活用して、抗体の親和性増強のための改変探索を行う手法を開発しました。本手法を CD40L に対する VHH の取得に活用しています。

この手法のポイントは、4つのスコアリングシステムです。指標の異なる4つの評価指標を開発し、それらのアンサンブルでデザインを評価することで、最良の改変を見つけ出しています。具体的に4つのスコアとは、以下に示すものです。

  • CDR generative LM scores
  • VHH-feature regression scores
  • CDR-feature NGS-pretrained DNN scores
  • VHH-feature NGS-pretrained DNN scores

まず1番目の LM スコアは、タンパク質の事前学習モデルそのものです。筆者らは、pLMs の中でも ProGen というタンパク質言語モデルを活用しています。このモデルを直接対象の抗体情報にあわせて微調整したモデルが、”CDR generative LM scores” です。

2番目の regression スコアでは、ESM-1v を用いて 60 個のリード抗体配列の重鎖にマッピングし、配列ごとのベクトル表現を取得しています。これに線形リッジ回帰を適用することで、抗原親和性の予測スコアを算出しました。

3、4番目の DNN スコアでは、NGS のデータから算出できる、ファージディスプレイパニングによるエンリッチメントレートを SPR から算出できる結合親和性との相関を学習するモデルを構築しています。アーキテクチャには、深層グラフニューラルネットワークを活用しています。3番目のスコアは、CDR の配列のみを抜き出して学習したモデル、4番目は VHH 全長の配列を学習したモデルで算出したスコアです。

実際に、本手法を活用してデザインしたところ、最大で 40 倍もの親和性かつシングル nM オーダーのバインダーのデザインに成功しています。

また、本検討からは、4つのスコアの中で、1番目のスコアリング手法が最も親和性との関連性を示していたと結論づけています。事前学習モデルから得られる特徴量を活用するよりも、事前トレーニングされた言語モデルを直接微調整する方が有用であることを示唆する結果で、非常に興味深いと思いました。