【抗体デザイン】トラスツズマブの改変体データの決定版

論文タイトル

Baselining the Buzz Trastuzumab-HER2 Affinity, and Beyond

出典

Just a moment...

要旨

Trastuzumab のバリアントデータを用いて、HER2 バインダーの分類モデルを構築した事例です。

解説など

標的抗原特異的な抗体クローンの同定に、深層学習によるバインダー分類器を活用した事例は数多くあります。代表的な実施例は、Sai Reddy が報告した DMS scanning データを活用した手法です。trastuzumab の H3 に対する変異導入ライブラリをディスプレイシステムでパニングし、抗原陽性プールを用いて HER2 結合判定のための分類モデルを構築しています。

Just a moment...

筆者らもこの事例と同じように、52万のディスプレイパニング由来の配列データを用いて HER2 バインダーの分類モデルを構築しました。このレポートの新規性は、このモデルを使って、既存の配列・構造生成モデルによる候補配列生成の効果をベンチマークしているところにあります。

まずモデルの構築ですが、trastuzumab の HCDR3に変異を導入したライブラリを酵母にディスプレイし、HER2 パニング後に HER2 結合陽性のクローンを FACS を用いてその染色強度に応じて High, Middle, Low の3種類に分類しました。そして各プールの NGS データから、重複とシングルトンを除いた配列を用いて訓練データとして活用しています。

モデルは以下3種のアーキテクチャで構築して各モデルの性能を比較しています。

  • a Fast Library for Automated Machine Learning(FLAML)
  • a Convolutional Neural Network (CNN)
  • an Equivariant Graph Neural Network (EGNN)

結果として、意外にも軽量な CNN モデルが特に少数の訓練データサイズにおいて最も性能が良いことが判明しました。

このモデルを使って、以下の配列生成法のいずれが最も HER2 バインダーを高頻度に提案できるか検証しています。

  • BLOSUM
  • AbLang
  • ESM
  • ProteinMPNN

いずれのモデルでもランダムにサンプリングした配列群に比べて優位に高いヒットレートを示し、CNN モデルで 90% の probability を示す配列の割合は ESM が最も高く 30% 程度とのことです。各配列の傾向を UMAP で可視化したところ、やはり、AbLang と ESM は近く、構造情報を強く反映する ProteinMPNN は他とは異なる傾向であることが判明しました。この違いはシーケンスロゴでも確認できます。

各モデルから生成され、かつ CNN モデルで良配列と判定されたヒット候補クローンは、ウェットでもこれから結合評価するとのことです。アップデートも待ち遠しいレポートです。