論文タイトル
Active learning for improving out-of-distribution lab-in-the-loop experimental design
出典
Just a moment...
要旨
抗体・抗原相互作用を予測するモデルを Active learning で効果的に学習する手法を提案した論文です。
解説など
オランダのアムステルダム大学からのレポートです。Library-on-Library の考え方で、任意の配列の抗体が任意の抗原に結合できるかどうかを網羅的に予測する汎用モデルを Active learning で構築することを目指しています。方法は次のとおりです。
1. モデルの構築
(1) 抗体-抗原相互作用のデータ表現
- Ab-Agマトリックスを使用
- 抗体(Ab)のCDRH3領域を11-merのスライディングウィンドウに分割
- 抗原(Ag)との相互作用を二値分類(結合 or 非結合)として表現
- Ab-Agペアごとに結合データを学習
- Absolut! シミュレーションフレームワークを用いて、合成データセットを生成
- モデルはこのデータセットをもとに、Ab-Agの結合予測を学習
(2) モデルの学習
- 初期の学習データは、ランダムまたはアクティブ・ラーニング(AL)戦略によって収集
- バイナリ分類問題としてモデルを訓練(binding or non-binding)
- 評価指標:ROC AUC
2. 次の配列の提案方法
(1) アクティブラーニング戦略
- 1回の反復ごとに、最も情報価値が高い抗原(Ag)を選択
- 各ステップの流れ
- Ag変異体を選択(1-3箇所の突然変異を持つ)
- ランダムまたはAL戦略で決定
- 全てのAbとの結合データを追加
- モデルを再訓練
- 新しいデータでROC AUCを計算
- ALCを更新し、モデルの改善を評価
- Ag変異体を選択(1-3箇所の突然変異を持つ)
(2) ランダム戦略(比較対象)
- ランダムに選択された抗原(Ag)と全抗体(Ab)の結合データを、反復的に追加
(3) OOD(Out-of-Distribution)評価
- 3種類のテストセットでAL戦略の汎化性能を評価
- Test(OODレベル高): 未見のAbとAgを含む
- TestSharedAG(中程度のOOD): 新しいAbだが、既知のAgを含む
- TestSharedAB(低いOOD): 新しいAgだが、既知のAbを含む
筆者らはアクティブラーニング戦略として、以下の複数の方策を比較し、3種類のテストセットに対して効果的な方法を探索しました。
- Model-based strategies
- Query-by-Committee
- Gradient-based
- Diversity-based strategy
- Hamming distance (average, min)
- alignment-based distance
結果として、全体的に以下3つの成績が良いことを明らかにしています。
- Hamming Average Distance
- Gradient-Based uncertainty (Last Layer Max)
- Query-by-Committee