【BERT】SAR2-CoV-2 binderを深層学習で予測!AlphaSeqデータを用いたモデル学習

論文タイトル

Antibody Representation Learning for Drug Discovery

出典

Antibody Representation Learning for Drug Discovery
Therapeutic antibody development has become an increasingly popular approach for drug development. To date, antibody therapeutics are largely developed using la...

確認したいこと

深層学習を利用した、タンパク質構造予測・デザイン手法をベンチマークしています。

要旨

SAR2-CoV-2 binderを予測する深層学習モデルについて紹介した論文です。

解説など

本論文では、標的抗原に対するbinder/non-binder判定をおこなうモデルを構築しています。事前学習モデルと、特徴量抽出のためのCNNモデルを組み合わせたアーキテクチャです。

binder/non-binderを判定するため、配列にその抗原結合性がラベルされたデータセットを用いています。ラベルデータは、AlphaSeqという手法を用いて取得されているそうです。本論文では、SAR2-CoV-2に対するbinding scoreをAlphaSeqで取得し、訓練データとしています。

事前学習モデルは、そのデータセットとして、Pfam(タンパク質全体の配列データ)と、抗体の重鎖、抗体の軽鎖の3種類のデータセットを利用しています。結果は意外なのですが、Pfam由来の事前学習モデルが、本目的においては好成績を示していました。抗体に適用するタスクでは、抗体レパトアから訓練された事前学習モデルの有用性が示されているデータが多かったと理解しています。どういうタスクで今回のような結果がでるのか、より経験を積んでいく必要があるように思いました。

コメント