論文タイトル
How to make the most of your masked language model for protein engineering
出典
How to make the most of your masked language model for protein engineering
A plethora of protein language models have been released in recent years. Yet comparatively little work has addressed how to best sample from them to optimize d...
要旨
本研究では、タンパク質工学におけるマスク付き言語モデル(MLM)の活用方法として、新しいサンプリング手法を提案し、その有効性をin silicoおよびin vitro実験で検証しています。
解説など
本研究は、「タンパク質言語モデルをどう使うか?」という実務的な課題に焦点を当てています。特に抗体設計において、モデルそのものだけでなく「サンプリング方法」が重要である点を明確にしています。
従来は「mutation-centric(変異中心)」のサンプリングが主流でした。
これは以下のような方法です:
- 1箇所ずつマスクして置換(Gibbs samplingなど)
- 順番に変異を決めていく
しかし本文では、これらの手法について、
- 計算コストが高い(O(L³))
- 不自然な配列を生成しやすい
と指摘されています。
提案手法:sequence-centric + Stochastic Beam Search
本研究のコアはここです。
- 配列を「生成する」のではなく
- 配列全体のスコア(PLL:pseudo-log-likelihood)を評価して探索する
という発想に切り替えています。
具体的には:
- 1変異違いの全配列をまとめて評価 (wild-type marginal approximation)
- Beam Search(探索アルゴリズム)で良い候補を保持
- Gumbelノイズで多様性を確保(=Stochastic Beam Search)
この方法により:
- 多様性とスコアのバランスを調整可能
- 計算効率が大幅に改善
- 複数目的(binding・安定性など)を同時最適化可能
とされています。
抗体設計では1つの指標だけでは不十分です。
本研究では:
- NDS(Non-Dominated Sorting, Paretoベースの選択)
- STS(Smooth Tchebycheff scalarization, 統合スコアによるランキング)
といった方法を用いて、複数の目的(例:結合・安定性)を統合しています。
本手法を採用した実験評価から以下の結果が得られています。
in silico(計算評価)
- MLMとしてはAbLang2やESM-2(650M)が良好な性能
- Beam SearchはGibbsより優れる傾向
in vitro(実験)
- サンプリング手法の違いがモデル選択と同等以上に重要
- Beam Searchが一貫して良い結果
- さらに教師ありモデルを組み合わせると性能が向上
- STSガイダンスでは成功率100%

