【抗体デザイン】抗体デザインもトランスフォーマーベースの深層学習モデルで

論文タイトル

Generative Language Modeling for Antibody Design

出典

Attention Required! | Cloudflare

確認したいこと

抗体デザインの最新手法

要旨

抗体配列を生成する深層学習モデル ImmunoglobulinLanguageModel（IgLM）を紹介した論文です。

解説など

メソッド

IgLMは、抗体に特化した、配列生成のための深層学習モデルです。

新規タンパク質やナノボディを設計するための配列生成手法には、これまで自己回帰生成モデルが利用されていました。しかし、これらの生成モデルは一方向性であるため、制限された特定の配列の再設計に使用することはできません。

そこで本手法では、生成モデルとして、 HuggingFace Transformersライブラリに実装されているGPT-2 Transformerデコーダーアーキテクチャを使用しています。これは先日の記事で紹介されたアーキテクチャと同じものです。

モデルの訓練では、マスクされる配列（スパン）がランダムに選択され、各配列内の任意のスパンを埋めることを目標にモデルを学習していきます。

上記は、Donahueetalによって提案された、InfillingbyLanguage Modeling（ILM）フレームワークに従っています。

訓練に供するデータには、Observed Antibody Spaceデータベースから取得した、558Mの配列が使用されているとのことです。

結果

構築されたモデルから生成される配列をテストデータセットを使って評価しています。

やはり、フレームワークに比べるとCDRではパープレキシティ（モデルの予測精度、低いほど予測に適している）が高いとのことです。特にHCDR3では、その高さが顕著でした。

しかし、アミノ酸の特徴分類をt-SNEで可視化すると、電荷や疎水性などの性質に応じてクラスタ化されているように見えることから、アミノ酸残基の性質を抽出できているように思います。

また、IgLMで生成された重鎖と軽鎖配列をランダムにペアリングし、ColabFoldを使用して予測構造を生成してみると、適切に構造が折りたたまれていることがわかります。

実際に、IgLMからサンプリングして、抗組織因子抗体（1JPT）のCDR H3ループを多様化し、1,000配列の合成ライブラリーを生成する事例も紹介されています。IgLMで設計された配列は、ランダム変異よりも全体的に低い凝集傾向、高い溶解性、高いヒト配列との相同性があったとのことです。

本モデルは、ラクダ重鎖配列でコンディショニングすることで、ナノボディの配列を生成することも可能です。

最新のTransformersをベースに構築されたモデルを、抗体デザインに適応した事例として、試金石となる論文だと感じました。特にモデルをコンディショニングして様々な用途に特化した予測が可能である点は、とても利便性が高いと思います。コードの公開はありませんが、同様の手法でモデルを構築してみたいと思いました。