【抗体de novoデザイン】深層学習を活用した抗体H3デザイン手法

論文タイトル

In silico proof of principle of machine learning-based antibody design at unconstrained scale

出典

MAbs. Jan-Dec 2022;14(1):2031482

In silico proof of principle of machine learning-based antibody design at unconstrained scale - PubMed

Generative machine learning (ML) has been postulated to become a major driver in the computational design of antigen-specific monoclonal antibodies (mAb). Howev...

確認したいこと

深層学習を活用した抗体のde novoデザイン

要旨

深層学習を活用した解析フレームワークを利用して、抗体のHCDR3をin silicoでデザインする手法を紹介した論文です。

Absolut!と呼ばれる結合シミュレーションツールによって、700万の天然のマウスH3配列と抗原構造から、抗原に結合するH3配列群を選抜
選抜したH3配列からRNN-LSTMで学習モデルを構築し、抗原に結合するH3配列を生成

解説など

近年、深層学習を用いて標的抗原に結合する抗体を探索する研究が、数多く公表されています。

本論文で紹介する手法は、構造情報を経由して、標的抗原に対する結合がアノテートされていないデータセットから、抗原結合抗体を探索するアプローチをとっています。

解析の主な流れを紹介します。

抗体と標的抗原との結合シミュレーションには、Absolut!と命名されたツールを用いています。Absolut!では、抗原は格子で表現され、探索する各抗体クローンそれぞれについて、標的抗原に対する親和性情報（結合エネルギー）などを算出します。git hubに公開されていて、bioRxivへのリリースも予定されているツールです。

Absolut!

Absolut! is a database and C++ user interface that allows the high-throughput computation for the 3D-lattice binding of any CDRH3 sequence to any antigen, enabl...

本手法では、Absolut!によって、親和性情報がアノテートされた抗体配列をRNN-LSTMで学習し、訓練モデルを構築しています。探索する抗体の母集団は、必ずしも標的抗原に結合する集団ではありませんので、あくまで標的抗原に結合するかどうかの指標は、Absolut!による結合シミュレーションに依存することになります。この点において、機能（親和性）情報が存在しないデータを出発点として、機能を予測することができる手法であるといえます。

本手法の評価の一つ目として、10個(論文表1参照)の抗原に対して、それぞれ結合するH3の探索を試みています。探索対象のH3には、700万種のマウスの天然H3配列を用いています。また各抗原情報は、特定の抗体クローンとの複合体構造として、PDBから提供されています。つまり、その抗体クローンの特徴を鋳型として、適した配列が探索される傾向があると考えられます。

探索したH3配列ごとに、抗原への予測結合親和性がアノテートされますが、それだけではなく、以下の開発指標も算出されています。

電荷
疎水性
安定性
MHCII結合
MHCI結合
分子量

Absolut!によって、シミュレーションされた700万のH3配列のうち、高親和性と判断されたトップ1%の配列群（7万配列）からLSTMモデルを構築しています。またこのモデルから、訓練配列に含まれない新規であり、かつ抗原結合が予測された配列を生成しています。

実際に、生成する配列を70万（訓練配列の10倍）まで増やすことで、訓練配列を大きく上回る新規な高親和性H3配列を生成できると主張しています。

また、安定した成績を示すモデルを構築するには、訓練配列数は2万以上必要であると述べられています。抗原間で比較すると、より大きいサイズの抗原（エピトープ種が多い抗原）は、より多くの訓練配列数を必要とする傾向にあるようです。

本論文ではまた、Absolut!ではなく、Masonらによって開発されたHER2抗体の分類器を用いて、LSTMモデルに供する訓練配列を選定するといった実施例も示されていました。最終的に、生成された配列の結合親和性をウェットで評価することがないことも踏まえて、de novoデザインへのハードルの高さを感じました。

考察においても以下の点において、Absolut!の改善が必要であると述べられています。

VH-VL全長のシミュレーション
格子表現のグリッドサイズを精密にしたい（現状は整数値で表現）
CDR3末端の構造制約条件を追加（フレームワークなど保存された領域との適合を改善）