論文タイトル
Protein design and variant prediction using autoregressive generative models
出典
Nat Commun. 2021 Apr 23;12(1):2403.

確認したいこと
- 深層学習を利用した、タンパク質デザイン手法
要旨
自然言語処理を適用した深層学習モデルを利用して、抗体ライブラリをデザインする手法を提案しています。
解説など
抗体のCDRは、その長さも含めて多様性が大きいので、アライメントに基づく特徴量の抽出が難しい配列です。筆者らは、アライメント不要な機能配列の予測と設計を、抗体を対象に試みた結果を報告しています。
本予測手法では、時系列データを扱う、自己回帰モデルを利用しています。訓練データとしては、アミノ酸配列をエンコーディングして使用していました。本論文では、抗体骨格構造として、シングルドメイン抗体であるナノボディを対象に、配列を設計しています。
まず初めに、抗体の突然変異体を対象として、モデルの予測精度を評価しています。実測された変異抗体の発現量と、モデルの予測結果との相関を評価指標として使用しています。
33の異なるタンパク質、合計69万種類の配列に対して適用したところ、既報の手法である、以下のモデルに対して、同等もしくは上回る性質を示していました。
- Evmutation model
- DeepSequence
- Envision model
筆者らはこのモデルを利用して、高効率に所望のナノボディをスクリーニングできる、抗体ライブラリを設計しました。7種のナイーブラマの抗体レパトアから解析された、合計約120万配列をもとに学習を行っています。
構築されたモデルから、配列を生成し、
- β鎖で終わらない配列
- 重複配列
- 翻訳後修飾を受けやすい配列
を除いた、185,836のCDR3配列を選抜しました。
このCDR3群を含むナノボディ配列を酵母細胞に提示させ、酵母への発現率を評価しています。コンビナトリアルライブラリで合成したライブラリと比較してみると、表面に提示する細胞の割合が、1.5倍高かったそうです。信頼性の高い配列を選抜してライブラリを構築しているため、発現率が高いのは納得で、提示する細胞の総数がコンビナトリアルライブラリより優れていると、素晴らしい結果なんだけど、、と思ったりもします。
またこのライブラリからヒト血清アルブミンに対する抗体取得も試みられています。結合クローンを複数同定でき、最も親和性の高い抗体は9.8uMのKdであったとのことです。
コンビナトリアルライブラリでどれくらいの親和性の抗体が取得できるかは示されていませんでした。特定の抗原に対する指向性は与えていないと思いますので、よっぽどコンビナトリアルライブラリの発現率が低くない限り、ライブラリサイズが大きく取得効率に影響する結果となりそうな印象です。
コメント