論文タイトル
Antibody optimization enabled by artificial intelligence predictions of binding affinity and naturalness
出典

要旨
実験データと深層学習モデルの組み合わせで抗体の親和性増強を行う手法を紹介した論文です。
解説など
本文献は、AbSciという抗体分子のスクリーニングに強みをもつバイオベンチャーからの報告になります。
抗体の親和性増強に計算化学を利用するアプローチですが、完全にインシリコで親和性増強改変を予測するわけではなく、実験データを活用することでその予測精度を向上することを試みています。
本論文の特徴のひとつは、深層学習モデルの入力データとなる実験データとして、筆者らが”SoluPro” と呼ぶアッセイ系で取得されたデータを活用していることです。SoluPro は、デザインライブラリを大腸菌にFabとしてディスプレイするシステムを利用した手法です。そのディスプレイライブラリを抗原分子で染色しFACSでソーティングしたのち、回収したライブラリの遺伝子をNGSで解析します。解析した遺伝子配列から、FACSで分画したプール中の存在頻度をもとに、ACEスコアという数値情報として、抗原に対する結合親和性を表現します。
もちろんこの変異を導入したライブラリとSoluProを活用するだけでも、抗体の親和性増強は可能なわけですが、広い配列空間から、このライブラリプールに収まらないデザインをインシリコで評価し、効率的に配列をサンプリングするのが、この論文で公開された方法の主旨です。
配列活性相関を予測する深層学習モデルのアーキテクチャは、RoBERTaモデルに基づいています。このモデルはOASデータベースの抗体配列で事前学習されています。続いてプロジェクト特有のデータとして、ACEアッセイで得られたデータで学習モデルを構築し、活性値を予測します。
このモデルの活性予測精度はトラスツズマブに対して、ACEアッセイをおこなったテストデータをもとに検証されています。以下が評価結果の概要です。
- 2,760配列のデータに基づくモデルで、R > 0.8の予測精度を達成
- 予測誤差は大きく実験ノイズに起因する
- データサイズが1000を切ると、予測のパフォーマンスが低下する
筆者らはこれらの知見に加えて、モデルが学習した抗体配列としての “nativeness” は、下記の指標と相関することも示しています。
- ADA反応
- developability (TAP)
- 発現量
この情報をもとに、”affinity” と”nativeness”を同時に予測し、双方を考慮したうえで最適な配列をサンプリングする遺伝的アルゴリズム (GA) を構築しました。このモデルが効率的に親和性増強改変を探索できることも論文では紹介されています。