論文タイトル
Antibody DomainBed: Out-of-Distribution Generalization in Therapeutic Protein Design
出典
Antibody DomainBed: Out-of-Distribution Generalization in Therapeutic Protein Design
Machine learning (ML) has demonstrated significant promise in accelerating drug design. Active ML-guided optimization of therapeutic molecules typically relies ...
要旨
ドメイン生成アルゴリズムを利用した、抗体の結合活性予測手法の開発を報告した論文です。
用語
- DG: domain generation
- DGA: domain generation algorithm
- OOD: out-of-distribution
解説など
ドメイン生成 (DG) アルゴリズムとは、一般的に一定の規則に基づいて IP ネットワークのドメイン名を生成する手法を指します。悪意のあるソフトウェアが大量のドメイン名を生成して、コントロールサーバと通信するために使う方法論です。このことから、DGA に由来したドメイン名はネットワークの脅威となりますので、DGA 由来のドメイン名を適切に検出するために深層学習モデルが活用されています。
具体的には、既知の DGA ドメイン名と正常なドメイン名を大量に収集し、そのデータを用いて深層学習モデルを構築します。このモデルによって高精度に DGA ドメイン名を検出することが可能になります。さらに、生成モデルを使って新しい DGA ドメイン名を生成し、訓練したモデルの検出性能をテストすることで、モデルを改良することも可能です。
筆者らは、このようなアプローチをタンパク質、特に抗体の配列設計に活用しています。まず初めに本手法を構築するためのデータセットの作成し、その後にベンチマークデータを活用して抗体の標的抗原に対する結合活性を予測するモデルを構築しています。
モデル構築の流れは次のとおりです。
- データのキュレーション
- SAbDab からデータを取得。標的抗原が HIV1, SARS-CoV-2, HER2 のいずれかであるデータを抽出
- 数百万の候補配列を生成モデルから生成
- Walk Jump Sampler を活用
- バインダー判定ツールを用いて数百の配列を選抜
- PyRosetta の InterfaceAnalyzerMover (scoring function: ref2015) を利用
- ウェット評価
- ウェット評価に基づいて、既報の基盤生成モデル・識別モデルを更新
- 生成モデルにはタンパク質言語モデル (SeqCNN, ESM2) や構造ベースのモデル (GearNet) を活用
結果の要点は次のとおりです。
- 基盤モデルのスケールが DG モデルのパフォーマンスに寄与
- 利用する基盤モデルは、構造ベースのモデルの方が ESM などの言語モデルより ΔΔG 予測に対して優れた成績を示す
コードはこちら。
GitHub - prescient-design/antibody-domainbed
Contribute to prescient-design/antibody-domainbed development by creating an account on GitHub.