論文タイトル
Harnessing Generative AI to Decode Enzyme Catalysis and Evolution for Enhanced Engineering
出典
https://www.biorxiv.org/content/10.1101/2023.10.10.561808v1
要旨
酵素タンパク質のエンジニアリングにおける、生成系AIの活用実績についてレビューした論文です。
解説など
本論文で言及されている生成系AIは、主にアミノ酸配列とその活性値を利用したモデルで、構造情報まで含めて活用した拡散モデルについては取り上げていません。報告実績も少ないことが一因でしょう。ここで紹介されている機械学習モデルは、次のとおりです。
- 最大エントロピー (MaxEnt) : DCA, EVcoupling, GREMLIN, CCMpred
- VAE:DeepSequence
- 言語モデル:ESM
- GAN
各モデルそれぞれに、以下の点について特徴があります。
- 残基間の関係性:MaxEnt のみペアワイズ、それ以外はさらに高次元な特徴抽出
- 各残基の生成確率:GANのみ生成確率は算出できない
- MSA の必要性:言語モデルは MSA が不要
- 解釈性:MaxEntが、パラメータの解釈性が最も高い
これより以前には、位置特異的スコアリング (PSSM) などもアプローチの1つで、これでも、ある程度の予測能を示すことが知られています。
本文では、エネルギーランドスケープと、酵素機能・熱安定性について、その変異に対する効果予測ができるか言及しています。残念ながら、現時点で精度高く予測することは非常に難しい、というのが共通認識です。例えば酵素の10 倍の速度差は、わずか 1.4 kcal/mol の反応障壁の差に相当します。このような微弱な差は、利用可能な物理モデルの精度では表現できません。また、教師あり学習を利用するのは、酵素活性に関わるデータ数が足りないことから現実的ではありません。
本文では、生成系 AI を酵素のデザインに活用した実施例についても、表形式で整理されています。標的とする酵素の種類や、それらに対して用いられている生成モデルの種類は、ばらばらですが、もし標的の酵素に類似した分子の実施例がありましたら、ぜひ参照してみることをお勧めします。