Masked Language Modelをどう使いこなすか?抗体設計におけるサンプリング戦略の重要性

論文タイトル

How to make the most of your masked language model for protein engineering

出典

How to make the most of your masked language model for protein engineering
A plethora of protein language models have been released in recent years. Yet comparatively little work has addressed how to best sample from them to optimize d...

要旨

本研究では、タンパク質工学におけるマスク付き言語モデル(MLM)の活用方法として、新しいサンプリング手法を提案し、その有効性をin silicoおよびin vitro実験で検証しています。

解説など

本研究は、「タンパク質言語モデルをどう使うか?」という実務的な課題に焦点を当てています。特に抗体設計において、モデルそのものだけでなく「サンプリング方法」が重要である点を明確にしています。

従来は「mutation-centric(変異中心)」のサンプリングが主流でした。

これは以下のような方法です:

  • 1箇所ずつマスクして置換(Gibbs samplingなど)
  • 順番に変異を決めていく

しかし本文では、これらの手法について、

  • 計算コストが高い(O(L³))
  • 不自然な配列を生成しやすい

と指摘されています。

提案手法:sequence-centric + Stochastic Beam Search

本研究のコアはここです。

  • 配列を「生成する」のではなく
  • 配列全体のスコア(PLL:pseudo-log-likelihood)を評価して探索する

という発想に切り替えています。

具体的には:

  • 1変異違いの全配列をまとめて評価 (wild-type marginal approximation)
  • Beam Search(探索アルゴリズム)で良い候補を保持
  • Gumbelノイズで多様性を確保(=Stochastic Beam Search)

この方法により:

  • 多様性とスコアのバランスを調整可能
  • 計算効率が大幅に改善
  • 複数目的(binding・安定性など)を同時最適化可能

とされています。

抗体設計では1つの指標だけでは不十分です。

本研究では:

  • NDS(Non-Dominated Sorting, Paretoベースの選択)
  • STS(Smooth Tchebycheff scalarization, 統合スコアによるランキング)

といった方法を用いて、複数の目的(例:結合・安定性)を統合しています。

本手法を採用した実験評価から以下の結果が得られています。

in silico(計算評価)

  • MLMとしてはAbLang2やESM-2(650M)が良好な性能
  • Beam SearchはGibbsより優れる傾向

in vitro(実験)

  • サンプリング手法の違いがモデル選択と同等以上に重要
  • Beam Searchが一貫して良い結果
  • さらに教師ありモデルを組み合わせると性能が向上
  • STSガイダンスでは成功率100%