論文タイトル
An integrative approach to protein sequence design through multiobjective optimization
出典
https://www.biorxiv.org/content/10.1101/2024.03.01.582670v1
要旨
タンパク質の複数の評価指標を同時最適化するための効率的なアルゴリズムを紹介しています。
解説など
タンパク質のデザイン手法は、生成モデルで構造・配列を生成して、AlphaFold でデザインの妥当性を評価するという流れが一般的になりつつありますが、このようにシーケンシャルに利用されるモデル間で、探索する配列空間が異なることは、デザインの偽陰性を防ぐうえで課題となります。
そこで、複数のモデルが示す異なる指標を同時に最適化するための、効率的な配列の探索方法を提案したのが本論文です。筆者らが提案したアルゴリズムには、以下の特徴があります。
- 配列空間の探索を加速させるために、”informative mutation operator” を使用
- パレート最適化を目指すために、明示的な近似を導入
具体的には、以下のプロセスを通じて配列をスクリーニングします。
- tournament selection, mutation operator, crossover operator を用いて新規デザインを探索
- ProteinMPNN, AlphaFold2 の出力指標に基づく目的関数で、提案配列をスコアリング
- 探索頻度の少ない新規配列クラスタを同定
筆者らは、このアルゴリズムを最適化するために、以下のような組み合わせで配列デザインを検討しました。
デザインするポジション選定
- ランダム
- ESM-1v
導入変異の選定
- ランダム
- ProteinMPNN
目的関数の種類
- ProteinMPNN
- AF2 Rank
- ProteinMPNN + ESM
- AF2Rank + ESM
結果として、導入変異の選定に ProteinMPNN、目的関数の設定に ESM を活用したアルゴリズムが、少ないイテレーションで妥当な配列にたどり着くことが示されています。
このような手法は、構造変化によって機能の ON/OFF が制御される、構造的な多状態をもつタンパク質に対するデザインにおいても有効です。両者の構造に対する最適解を探索することに貢献します。さらに基盤となるアルゴリズムは、幅広い最適化用途に活用できる可能性があると思います。