【抗体デザイン】”Active Learning”を使って抗体設計に挑戦

Accelerating Antibody Design with Active Learning

深層学習を利用した、タンパク質構造予測・デザイン手法をベンチマークしています。

抗体工学の予測・生成モデルに”active learning”を利用した実施例を報告しています。

active learningとは、ラベルの無いデータから、モデル学習に適したデータを選ぶための手法です。active learningのわかりやすい解説は、以下のページで解説されていますので、ご参照ください。

Active Learning 入門 from Shuyo Nakatani

系列ラベリングにおけるActive Learning

抗体に関わるデータには、抗体・抗原複合体構造が登録されたデータベースがありますが、その数には抗原ごとに偏りがあって絶対数は多くありません。また、抗体のアミノ酸配列を中心に登録されたデータベースには大規模なデータ数が存在しますが、その抗原特異性がラベルされたデータは限られています。

本研究では、抗体配列を用いた事前学習モデルに転移学習を適用して、各抗原に結合する抗体のデザインを試みています。抗原ごとの個別課題に対応するために転移学習を活用するわけですが、そのときに利用するデータの選抜にactive learningを適用しているのです。

事前学習モデルには、言語モデルのGPT-2アーキテクチャを利用しています。

また、抗原結合抗体を生成するためのデータセットとして、標的抗原がラベル化された抗体配列6000種を利用しています。この中には、抗PD-1抗体のように1,313種の配列を含むものから、抗MET抗体のように10未満の配列しか存在しないものまで、幅広い種類の配列が含まれています。

本モデルから、実際に抗PD-1抗体と抗PD-L1抗体の生成と、デザイン配列でのウェットでの評価が実施されています。いずれの抗原からも、親和性は低いながら結合する抗体が同定されている結果が示されていました。