論文タイトル
Stable Online and Offline Reinforcement Learning for Antibody CDRH3 Design
出典
要旨
オンライン・オフライン強化学習を活用した抗体CDRのデザイン手法を開発しています。
解説など
過去にも本ブログで、RL学習による抗体デザイン手法 (Structured Q-learning)を紹介しています 。
このような背景がある中で、本論文の特徴はオフライン強化学習を活用していることです。
※オフライン強化学習

オフライン強化学習とは、過去に集めたデータのみを使って強化学習をおこなうアプローチです。実環境でリアルタイムに取得したデータから学習を繰り返す通常のオンライン強化学習と対比した手法になります。
大規模なウェットのデータをリアルタイムで取得して学習することは現実的ではありませんので、本論文では学習データの生成に、Absolut!を活用しています。
また、オフライン強化学習は、一般的に学習の安定性や過学習が課題となります。抗原結合CDRの結合活性を予測する場合は、与えられたアミノ酸配列に対して妥当な結合エネルギーを近似していくわけですが、本手法では、わずかな配列の違いをより顕著に検出するため、即時的な報酬を調整することを心がけています。
筆者らは、Absolut!のデータセットをベンチマークに、以下の強化学習を利用した既存の手法と比較する形で、本手法の性能を評価しています。
- Structured Q-learning (SQL)
- AntBO
学習は300エポックあたりで収束し、エネルギーユニットとして -80~-130 の結合エネルギーの配列がデザインできることが示されています。生成された配列は、ロイシンやフェニルアラニンなど疎水性の残基に大きく偏っています。これは、既報の Structured Q-learning の結果と同じ傾向であるとのことです。
物性や免疫原性など多角的な改善が求められる分子デザインにおいては、多様なアミノ酸配列を導入できる設計自由度が重要となりますので、将来的には望みの様々な指標を学習できることが求められるでしょう。