【ML/AI】複数の予測・生成 AI モデルから最適なアルゴリズムを選択する方法

論文タイトル

Reliable algorithm selection for machine learning-guided design

出典

Reliable algorithm selection for machine learning-guided design

Algorithms for machine learning-guided design, or design algorithms, use machine learning-based predictions to propose novel objects with desired property value...

要旨

成功する可能性が高いデザインアルゴリズムの条件を、理論的な保証つきで選択する手法を紹介した論文です。

解説など

Prescient design からのレポートです。この論文では、適切なタンパク質のデザインアルゴリズムを選択する方法を解説しています。

多くの既存研究では、

「どの設計配列が良いか」（個々のクローンの選択）

を扱っていました。例えばベイズ最適化やコンフォーマル予測は、「１つ１つの候補の信頼性」や「予測の分布」を対象にしています。

一方でこの論文は、

「どの設計アルゴリズムの条件（configuration）を使うか？」（分布レベルの選択）

という、もっと上流の意思決定（設計戦略の選択）に焦点を当てています。

このような “algorithm selection”には、従来 grid search のようなハイパーパラメータ選択法が存在します。これはラベルデータを train/validation/test に分割し、各 configuration で構築した予測モデルの性能を評価する方法です。この方法では、train/validation/test が同じデータ分布である必要があります。しかし、実際のタンパク質設計の局面では特定の標的抗原に対する親和性を予測する、など各テーマにおいて最適化したモデルを”ぶっつけ”で活用するケースが非常に多いです。このような状況においては、モデルが生成する配列データの分布が既知のラベルデータと異なるケースがあります。このような状況でも理論的な保証つきでアルゴリズムを選択する手法を提案したのが本論文です。

本手法の特徴は、主に以下の２つの技術を活用していることです。