論文タイトル
De novo design of peptide binders to conformationally diverse targets with contrastive language modeling
出典
要旨
従来の構造依存的なアプローチを必要とせずに、配列情報のみから新規ペプチド結合分子(binder)を設計するためのフレームワーク「PepPrCLIP」を提案・検証した論文です。
解説など
バインダーデザインの新規手法の紹介です。本論文ではリニアペプチド型のバインダー設計手法を提案しています。本手法の特徴は、入力情報に標的抗原の構造情報が不要なことです。デザインの内部でモデリングして構造を起こすのではなく、純粋に配列情報のみから適したペプチド配列を生成することができます。
この目的のために、活用したのが “Contrastive Language-Image Pretraining” CLIPモデルです。これは異なるモダリティ(たとえば画像とテキスト)を共通の埋め込み空間にマッピングするための自己教師あり学習手法です。この論文ではその概念をタンパク質配列とペプチド配列のペアに応用しています。
CLIPを活用した筆者らのバインダーデザインパイプライン「PepPrCLIP」は、以下2つのステップで構成されています。
- 生成フェーズ(ペプチドの生成)
- ESM-2(650M) を使用し、既知ペプチドの埋め込み空間をガウスノイズで摂動
- 「既知ペプチド」は既往の報告から何らかのタンパク質に結合していることが明らかなペプチド
- 標的抗原に適した鋳型配列を選ぶわけではなく、既知ペプチド群から完全にランダムに選択
- 摂動後の埋め込みから、再び配列を復元することで、自然なバリエーションのペプチドを得る
- ESM-2(650M) を使用し、既知ペプチドの埋め込み空間をガウスノイズで摂動
- 識別フェーズ(スクリーニング)
- ペプチドとタンパク質の埋め込みを学習
- コサイン類似度で結合可能性をスコア化
本論文では、以下の手順で PerPrCLIP から配列を生成しています。
- タンパク質の配列を1つ入力する
- トレーニング済みの既知ペプチドをランダムに100個程度選択
- 各既知ペプチドから1000個のガウス摂動ペプチドを生成
- 合計100,000 個程度のペプチドをCLIPモデルに通し、スコア順に並べる
- 上位スコアのペプチド(主に20配列)を候補として出力
ヒットレートは、PepPrCLIP で生成した 100,000 個中のトップ1配列と、RFDiffusion/ProteinMPNN で生成したトップ1配列を in silico メトリクスで比較評価したところ、RFDiffusion の半分程度のヒットレートであったとのことです。
PepPrCLIP は生成と評価の速度が、RFDiffusion と比べて段違いに高速であることがメリットですが、最終的なスループット律速になり得る AlphaFold 予測や wet 評価を考慮すると、そこでの成功確度が高い RFDiffusion の方が有用に感じます。
一方で、IDR に対するバインダー設計は RFDiffusion では取得できなかったものが PerPrCLIP では生成できているとのことで、PepPrCLIP の特徴が現れた結果です。最新の RFDiffusion による IDR バインダー設計手法と比べた結果が待ち遠しいですね。
コードはこちら。
