論文タイトル
Reliable algorithm selection for machine learning-guided design
出典
要旨
成功する可能性が高いデザインアルゴリズムの条件を、理論的な保証つきで選択する手法を紹介した論文です。
解説など
Prescient design からのレポートです。この論文では、適切なタンパク質のデザインアルゴリズムを選択する方法を解説しています。
多くの既存研究では、
「どの設計配列が良いか」(個々のクローンの選択)
を扱っていました。例えばベイズ最適化やコンフォーマル予測は、「1つ1つの候補の信頼性」や「予測の分布」を対象にしています。
一方でこの論文は、
「どの設計アルゴリズムの条件(configuration)を使うか?」(分布レベルの選択)
という、もっと上流の意思決定(設計戦略の選択)に焦点を当てています。
このような “algorithm selection”には、従来 grid search のようなハイパーパラメータ選択法が存在します。これはラベルデータを train/validation/test に分割し、各 configuration で構築した予測モデルの性能を評価する方法です。この方法では、train/validation/test が同じデータ分布である必要があります。しかし、実際のタンパク質設計の局面では特定の標的抗原に対する親和性を予測する、など各テーマにおいて最適化したモデルを”ぶっつけ”で活用するケースが非常に多いです。このような状況においては、モデルが生成する配列データの分布が既知のラベルデータと異なるケースがあります。このような状況でも理論的な保証つきでアルゴリズムを選択する手法を提案したのが本論文です。
本手法の特徴は、主に以下の2つの技術を活用していることです。
- Prediction-powered inference: 予測とラベル付きデータを統合して推論精度を向上
- Covariate shift: デザインされたデータとラベル付きデータの分布の違いを補正(重要度重みづけ)
手法の概要は次のとおりになります。
1. メニュー(候補構成群)を準備
複数のデザインアルゴリズム構成(例えば、異なるハイパーパラメータやモデルの組み合わせ)を用意します。
2. それぞれの構成から予測値を取得
各構成が生成する設計データに対して、予測モデルでプロパティ(例えば、結合親和性)を予測します。
3. 保持しておいたラベル付きデータと比較
予測誤差を補正するために、独立したラベル付きデータを用います(これが「prediction-powered inference」のアイデア)。
4. 複数仮説検定を行う
各構成について「成功していない(失敗している)」という帰無仮説を立て、それをp値で検定します。
5. Bonferroni補正で選択
誤検出を抑えるためにBonferroni補正を使って、有意な(成功しそうな)構成だけを選び出します。
筆者らは本手法をタンパク質 GB1 や RNA バインダーの設計タスクで検証しました。以下のような既存の手法では、エラー率が高いもしくは保守的過ぎて何も選ばなかったのに対し、本手法では低いエラー率であることを示しています。
- Prediction-only
- Gaussian Mixture Model Forecast
- Calibrated Forecast
- Conformal prediction