論文タイトル
Structured Q-learning For Antibody Design
出典
確認したいこと
深層学習を利用した、タンパク質構造予測・デザイン手法をベンチマークしています。
要旨
Q学習による深層強化学習を利用して、抗体のデザインを試みた論文になります。
用語
- RL: Deep Reinforcement Learning
- MaxSMT: Maximum Satisfiability Modulo Theories
- MIP: Mixed Integer Programming (混合整数線形計画法)
- QL: Q-learning
- SQL: Structured Q-learning
- SA: Simulated Annealing
- RS: Random Search
- PG: Policy Gradients
- SPG: Structured Policy Gradients
解説など
本論文は、抗体の抗原結合親和性増強(抗体最適化)を目的とした手法になります。抗原との複合体構造が既知の抗体に対して、最適なHCDR3デザインを試みています。
この目的のため、本論文では深層強化学習を利用しています。本アルゴリズムを、筆者らは”Structured Q-learning”と呼んでいます。
前提となるQ学習のアルゴリズムは、以下のサイトなどで詳しく解説されています。
Q学習では、課題に対する到達度をQ値と呼ばれる価値で表して、Q値が最大になるように学習が進行します。強化学習の中でも、Q学習は”off-policy”と呼ばれる手法であり、SARSAなどの”on-policy”とは異なる戦略をとる手法になります。
※”on-policy”, “off-policy”とは

本論文で紹介されるStructured Q-learningとは、このQ学習の拡張型です。
以下の4つの要素を新たに取り入れたアルゴリズムになります。
- structure critic targets
- structure policy evaluation
- structure exploration operator
- structure policy improvement
“structure”とありますが、タンパク質の3次元構造という文脈でのstructureではなさそうな印象を受けます。詳細を知るにはアルゴリズムにもっと詳しくならないと理解できなさそうです。詳しい方がいらっしゃいましたら、ぜひコメントいただけると嬉しいです。
学習における目的関数には、シミュレーションした結合エネルギーの値が採用されています。シミュレーションには、Absolut!が利用されています。Absolut!については、以下の記事で紹介していますので、ぜひご参照ください。
本論文では実施例として、PDBに登録された8つの抗体・抗原複合体構造を対象に、H3のデザインを試みています。結果は、デザイン数に応じて結合エネルギー値が最適化される様子で示されています。ウェットでの検証試験は行われておらず、デザイン配列も公開されていません。
抗体デザインにおけるAbsolut!の応用事例が増えている印象を受けました。利用できるように環境を整えていきたいと思います。
コメント