論文タイトル
Inference and design of antibody specificity: from experiments to models and back
出典

要旨
ファージディスプレイパニングで得られた配列情報を活用して訓練した機械学習モデルをもとに、訓練データに含まれていない仮想配列の抗原結合特性を予測する手法を報告した論文です。
解説など
先日のブログに引き続き、抗原結合抗体の配列デザインに関するレポートを紹介します。
本論文で取り組んでいる問題は、ファージディスプレイパニングで得られた配列情報を活用して訓練した機械学習モデルをもとに、訓練データに含まれていない仮想配列の抗原結合特性を予測する、ということです。
物理的に調製できるライブラリサイズを超えた探索範囲から、優れた性質を示すバインダーを取得することを目指した技術になります。
本手法の特徴は、
- ファージディスプレイパニングから得られた配列情報・生物物理モデリング・機械学習の3点を活用していること
- 構造の類似した抗原に対して特異的なバインダーを予測する、という問題設定に取り組んでいること
にあります。
具体的な方法論は次のとおりです。
訓練データの取得
標的抗原に対して結合する抗体配列をモデルの訓練データとして用意するため、低規模なライブラリーを用いて、ファージディスプレイパニングを実施しています。具体的には、HCDR3 の連続する4つの位置が系統的に変化しているナイーブヒト VH ドメインライブラリーを利用しています。抗原は配列の異なる DNA ループを2種類用意し、それぞれに対してパニングした配列プール、両方に対してパニングしたプール、抗原未固相のビーズに対してパニングした配列プールの4種類を用意して、NGS で配列情報を取得しています。
モデル構築
特定の実験 t で抗体配列 s が選択される確率 pst が選択モードと非選択モードで表現される計算モデルを構築しています。各モード w は、実験 t のみに依存する μwt と、シーケンスに依存する Ews の 2 つの量によって以下のように数学的に記述されます。
- E ws = ∆ F ws (状態 w における s の自由エネルギー) / RT
- μ wt = ln [w] (実験 t における遊離リガンドwの相対濃度)
モデルがデータで訓練されると、選択/非選択モードのカスタム セットを使用して実験をシミュレートすることができ、バリアントの妥当性を予測できるようになります。
新しいシーケンスの生成は、各モード w に関連付けられたエネルギー関数 E sw を最適化することに依存します。交差特異性配列を取得するには、目的のリガンドに関連する関数 E sw を最小化します。
この手の手法は、十分な訓練データがないと正確な予測精度を発揮できないことと、その状況下で新しい配列を生成するモチベーションを持つことが、トレードオフになって、実用的な用途を見つけることが難しいのが課題です。高度に類似した標的分子に対して、どれくらい特異的な分子をデザインできるかがカギになるでしょう。