論文タイトル
Protein Design with Guided Discrete Diffusion
出典
要旨
Discrete Diffusion Model を活用した抗体最適化手法 LaMBO-2 を紹介した論文です。
解説など
ニューヨーク大学と Prescient Design の共著論文です。本論文では拡散モデルを活用した抗体の最適化手法である LaMBO-2 を提案しています。手法名のとおり、彼らは過去に LaMBO-1 という手法を提案しています。これと LaMBO-2 との違いは以下のように整理することができます。
観点 | LaMBO-1 | LaMBO-2 |
基盤生成モデル | Masked Language Model (MLM) | Discrete Diffusion Model + NOS (diffusioN Optimized Sampling) |
ガイダンス方法 | MLMに対するBayesian Acquisitionガイド | 拡散プロセス中にNOSで勾配ガイドをかける |
編集位置の選択 (Edit Position) | 明示的な選択なし(編集する場所を特定しない) | Saliency Map(重要度マップ)を使って編集位置を選ぶ |
編集量制御 (Edit Budget Control) | あまりうまくできない(単に編集数を制限するだけ) | Saliencyベースで、限られた編集予算のもと効果的に場所選択 |
不確実性推定 | Gaussian Process (Deep Kernel GP) | Partial Deep Ensemble |
編集対象 | 基本的に既知配列を改変 | 同様にseed配列を改変だが、局所制約が強化されている |
まず基盤の生成モデルが、MLMから拡散モデルに変わっています。通常の離散拡散モデルに対する課題は、過去の記事でも言及していますが、
diffusion optimized sampling (NOS) という、隠れ状態に対して勾配ガイダンスをかけながらサンプリングする新手法を導入することで、この課題を克服しています。
また、最適化のシード配列に対して多くの変異を導入しないよう編集箇所を制限するために、サリエンシーマップを活用しています。これは目的関数(結合親和性など)を高めるにはどの位置が重要か、各位置ごとの勾配量で測る指標です。つまりサリエンシーマップを使用することで、「ここを変えれば大きく目的値が改善されそう」という場所が予測することができます。
LaMBO-2 を使った unconditional な配列生成では IgLM に匹敵する recovery rate を示すことが確認できます。また、hu4D5 (trastuzumab) に対する抗体最適化では、発現量と抗原結合の同時最適化が可能なことを示しています。
興味深いのは ablation study の結果で、NOS によるガイダンスより、サリエンシーマップによる編集位置選択が最適化効率の向上に大きく寄与することが明らかとなりました。編集場所や編集距離の工夫は、数多くの論文で見られますが、最適化においてはとても重要な要素であると考えられます。
コードはこちら。