論文タイトル
An explainable language model for antibody specificity prediction using curated influenza hemagglutinin antibodies
出典

要旨
抗体データセットに基づく深層学習大規模言語モデルを活用して、抗インフルエンザ HA 抗体の特性理解やエピトープ予測を行った報告です。
解説など
一般に大規模言語モデル(というより、計算機予測)で、抗体の抗原結合を予測するのは難しい課題として認識されています。一方でその標的抗原に特化して充実したデータセットさえあれば、高精度の予測も可能であることは、SARS-CoV-2の事例から明らかになっていることです。これには、コロナウイルスに対する10,000を超える抗体の配列およびエピトープ情報を記録するCoV-AbDabなどのデータベースの存在が大きく貢献しています。
本論文では、研究論文と特許の情報をマイニングすることで、5,000 を超えるインフルエンザヘマグルチニン (HA) 抗体のデータセットを作成しました。これをもとに作った言語モデルをmBLMと呼んでいます。
データベースに含まれる各抗体配列には以下のアノテーションがされています。
- ジャームライン
- 配列
- 結合特異性(例:グループ 1、グループ 2、タイプ A または B など)
- エピトープ(ヘッド、ステム)
- ドナーのステータス(感染患者、ワクチン接種者など)
データセットの中では、564 個 (10.1%) が球状ヘッドドメインに結合し、518 個 (9.3%) がステムドメインに結合するとのことです。残りの 4,479 個の HA 抗体については、エピトープ情報は入手できていません。同種のモデルを構築するには、1,000 配列程度のエピトープ情報を入手することが一つの目安といえるかもしれません。
筆者らは、これをもとに与えられた抗体配列が、HAのどのエピトープを認識するかを予測するモデルを構築しています。また詳細は割愛しますが、構築した言語モデルから、各エピトープ結合抗体に頻出する特徴的なモチーフやアミノ酸残基について考察することも試みています。モデルとコードは以下から入手できます。
