【配列デザイン】米国スタートアップ Plofluent Bio がタンパク質言語モデルを用いた配列設計手法 prose LM を公開

論文タイトル

Adapting protein language models for structure-conditioned design

出典

Adapting protein language models for structure-conditioned design
Generative models for protein design trained on experimentally determined structures have proven useful for a variety of design tasks. However, such methods are...

要旨

タンパク質言語モデルを活用した、タンパク質配列設計手法 proseLM を紹介した論文です。

解説など

本論文は、米国のバークレーに本社を構えるスタートアップ、Plofluent Bio からのレポートです。筆者らは新しいタンパク質の配列設計手法である proseLM を提案しました。これまでの SOTA 手法は ProteinMPNN ですが、筆者らはタンパク質言語モデルを活用して配列設計に取り組んでいます。

構造情報を入力としたコンディショナルな配列設計を実現するため、既存のタンパク質言語モデルに、構造情報を特徴量を抽出する “causal encoder” を追加しました。これは既存のエンコーダ・デコーダモデルを参考に、MPNN と IPMN エンコーダ層から構成されたアーキテクチャです。

既存のタンパク質言語モデルとしては、ProGen2 が活用されています。ProGen2 に causal encoder を接続して、モデルを LoRA で効率的にチューニングする工夫がなされています。

構築された proseLM の性能評価試験では、オリジナルの ProGen2 と比較して、sequence recovery、perplexity とも優れていることが示されています。

構造情報の入力には、タンパク質だけでなく非タンパク質性の分子を取り扱えます。核酸や低分子リガンド、イオンを対象にそれらを相互作用するタンパク質との複合体として入力すると、その相互作用様式に適したタンパク質配列を設計することができます。実際に検証してみると、低分子リガンドに近接した(5Å 以内)領域で特に学習効果が高かったとのことです。

筆者らは、proseLM を使って機能性分子のデザインも試みています。SpCas9、Adenine base editor、nivolumab (抗 PD-1 抗体)の活性増強を検証しています。酵素のデザインでは、multi-state conditioning として、binary state と catalytic state の両方を入力情報として活用して課題解決に取り組んでいます。抗体のデザインでは、ProGen2-OAS という OAS データでチューニングした既存モデルをベースに、SAbDab の構造データを使ってモデルチューニングを試みています。いずれのケースでも少ないデザインから野生型と比べて活性の強いデザインを同定しています。ヒットレートは必ずしも高くなく、実用的なレベルまでは達していない印象です。