【抗体】新しい深層生成モデルでH3配列をサンプリング

論文タイトル

Multi-segment preserving sampling for deep manifold sampler

出典

Multi-segment preserving sampling for deep manifold sampler

Deep generative modeling for biological sequences presents a unique challenge in reconciling the bias-variance trade-off between explicit biological insight and...

確認したいこと

深層学習を利用した、タンパク質構造予測・デザイン手法をベンチマークしています。

要旨

multi-segment preserving samplingという深層生成モデルを提案して、抗体のH3デザインに応用した論文です。

解説など

タンパク質のデザインを深層生成モデルで実施するときに、明示的に既知のドメイン情報をモデルに組み込むことが、一つの課題になってきます。

筆者らは以前に、”deep manifold sampler”という、配列を逐次的に生成する手法を開発しています。これは可変長を扱うことができるdenoising autoencoder (DAE)に基づくモデルです。この手法ではもともと暗黙的に非機能性の領域を保存し、機能性のあるサイトを選択的に変化させて配列を生成することができます。

本論文ではこの手法を改良し、事前に定義した情報をもとに、サンプリングする領域を制限できるようにしました。この方法を、”multi-segment preserving sampling”と呼んでいます。

筆者らの手法は、従来の事前学習自然言語モデルと比較して、可変長の配列を取り扱うことができます。また可変長の配列を取り扱うことができる、Seq2Seqのような自己回帰モデルと比較すると、中間層ベクトルの制御が容易とのことです。さらに、それを回避したビームサーチのようなテクニックと比べると、計算コストが低いとのことで、各技術に対して特徴のある手法となっています。

筆者らはmulti-segment preserving samplingを用いて、抗体のH3をサンプリングするモデルを構築しました。訓練データはIGHV1-18のジャームラインをもつ、5,971,552の重鎖配列です。このモデルをGPT-2モデルと比較して性能を評価しています。データを見るとGPT-2に比べて、配列長の分布など、訓練データと比較して類似しているようにみえます。

この手法をバインダーデザインにも応用できると面白いと思いました。