論文タイトル
Reprogramming Pretrained Language Models for Antibody Sequence Infilling
出典
Reprogramming Pretrained Language Models for Antibody Sequence Infilling
Antibodies comprise the most versatile class of binding molecules, with numerous applications in biomedicine. Computational design of antibodies involves genera...
確認したいこと
深層学習を用いたタンパク質デザイン手法をベンチマークしています。
要旨
モデルリプログラミング (MR) という手法を使って抗体の CDR デザインを試みています。
解説など
モデルリプログラミング (MR) とは、既存の訓練済み機械学習モデルを別の分野のタスクに活用する手法です。似たような方法にファインチューニングがありますが、こちらは元のモデルとこれから解くタスクに関連性があったり、対象とするドメインを制限する程度のチューニングです。ファインチューニングでは、訓練済みモデルのすべてのパラメータを新しいタスクに対して更新していきます。これに対し MR は、モデル間の訓練データの構造自体が大きく異なります。言語モデルにおいては異なる自然言語へ、モデルを適応するイメージです。こちらでは、活用する訓練済みモデルは固定化し、その前後に新たなレイヤを構築して、新しいタスクに適合させます。
本研究では、自然言語である英語に基づく大規模言語モデル BERT を、タンパク質のアミノ酸配列生成、特に抗体の CDR デザインに活用しています。訓練データとしては、SabDab に登録された情報のアミノ酸配列のみを活用しています。
構築したモデルの評価はインシリコで生成された指標のみ、RabD などと、AAR などを比較したおなじみの評価系です。
ゼロからモデルを構築するのに比べて、どのような優位性があるのか、興味があります。AAR レベルでは AbLang よりも良い成績を示しているとのことです。
コメント