【抗体開発】機械学習エンジニア必見！モデル開発プロセスをまとめたレビュー論文を紹介！

論文タイトル

Best practices for machine learning in antibody discovery and development

出典

ScienceDirect

要旨

抗体の開発において機械学習を適用する際に重要な要素を解説したレビュー論文です。

章立て

緒言
抗体開発の適切な実験プロセスを決める
機械学習プロセスの要素
データ取得
- アッセイの予測妥当性
- 適切なアッセイ条件の決定
- データ精度の確認
- 適切な測定指標とプロセスの選択
- 生物学的多様性
- コントロールに基づくデータの標準化
- 他の抗体スクリーニングデータに関する課題
- データドリフトの検出と取り扱い
データのキュレーションと前処理
- データの統合
- データ成形
- データビニング
- データの平均化
- 特徴量抽出と選択
- 特徴量スケーリング
- データ変形
- シミュレーション
データ解析
- 適切なデータ優先度の評価
- データのダイナミックレンジ
- データ不偏性の評価
- モデルの適応性
- 相関とクラスター解析
正しい損失関数と性能指標の選択
- 回帰指標
- 分類指標
モデルの要素とモデル選択
- 一般的なデータとプログラム特有のデータ
- モデルに必要な要素
- データの前処理
- モデルタイプ
  - ダミーモデル
  - 敵対的評価
  - 機械学習モデル
  - 深層学習モデル
  - 物理モデルとシミュレーション
- 最適化
  - アンサンブルモデル
  - よくある落とし穴と最適な方法
評価
- プロセス評価とモデル評価
- ベースライン
- 評価指標
- 重要性評価
- モデルの性能とプログラムの影響
- 抗体スクリーニング特有の指標
- データ分割
結論