【抗体デザイン】ドメイン生成アルゴリズムを活用した抗体活性予測手法を紹介します

論文タイトル

Antibody DomainBed: Out-of-Distribution Generalization in Therapeutic Protein Design

出典

Antibody DomainBed: Out-of-Distribution Generalization in Therapeutic Protein Design

Machine learning (ML) has demonstrated significant promise in accelerating drug design. Active ML-guided optimization of therapeutic molecules typically relies ...

要旨

ドメイン生成アルゴリズムを利用した、抗体の結合活性予測手法の開発を報告した論文です。

用語

DG: domain generation
DGA: domain generation algorithm
OOD: out-of-distribution

解説など

ドメイン生成 (DG) アルゴリズムとは、一般的に一定の規則に基づいて IP ネットワークのドメイン名を生成する手法を指します。悪意のあるソフトウェアが大量のドメイン名を生成して、コントロールサーバと通信するために使う方法論です。このことから、DGA に由来したドメイン名はネットワークの脅威となりますので、DGA 由来のドメイン名を適切に検出するために深層学習モデルが活用されています。

具体的には、既知の DGA ドメイン名と正常なドメイン名を大量に収集し、そのデータを用いて深層学習モデルを構築します。このモデルによって高精度に DGA ドメイン名を検出することが可能になります。さらに、生成モデルを使って新しい DGA ドメイン名を生成し、訓練したモデルの検出性能をテストすることで、モデルを改良することも可能です。

筆者らは、このようなアプローチをタンパク質、特に抗体の配列設計に活用しています。まず初めに本手法を構築するためのデータセットの作成し、その後にベンチマークデータを活用して抗体の標的抗原に対する結合活性を予測するモデルを構築しています。

モデル構築の流れは次のとおりです。

データのキュレーション
- SAbDab からデータを取得。標的抗原が HIV1, SARS-CoV-2, HER2 のいずれかであるデータを抽出
数百万の候補配列を生成モデルから生成
- Walk Jump Sampler を活用
バインダー判定ツールを用いて数百の配列を選抜
- PyRosetta の InterfaceAnalyzerMover (scoring function: ref2015) を利用
ウェット評価
ウェット評価に基づいて、既報の基盤生成モデル・識別モデルを更新
- 生成モデルにはタンパク質言語モデル (SeqCNN, ESM2) や構造ベースのモデル (GearNet) を活用