論文タイトル
Protein design via deep learning
出典
Brief Bioinform. 2022 May 13;23(3):bbac102.

確認したいこと
- 深層学習を活用した、タンパク質デザイン手法
要旨
深層学習を利用して、タンパク質デザインする手法についてレビューした論文です。
章立て
- 緒言
- 本レビューに関連する深層学習技術
- 識別モデル
- 生成モデル
- 深層強化学習
- 構造に基づくタンパク質デザインのための深層学習
- 骨格構造サンプリングと生成
- 最適なエネルギーランドスケープに基づく配列デザイン
- スコアリング関数とランキング評価手法
- 直接配列デザインのための深層学習
- 表現学習
- 配列生成
- 深層強化学習を用いたデザイン
- 結言と展望
解説など
深層学習に関連するレビュー論文は多数ありますが、本記事のように、タンパク質デザインに特化して整理されている内容は、数多くありません。ここ1年間で、様々な深層学習のアーキテクチャがタンパク質の生成に活用され、報告されています。具体的にどのようなモデルが成果を上げているのか、深層学習技術側の視点から、情報を整理するために、この文献は非常に有用です。
本文では、適応事例を羅列するだけでなく、そのモデルのアーキテクチャについても概要が解説されています。
深層学習によるタンパク質デザインは、構造情報(残基間距離、角度など)と、言語モデルによる配列情報を活用したデザイン手法に、分けることができます。
前者における代表的な手法は、AlphaFoldやRoseTTAFoldなどのタンパク質構造予測モデルを逆向きに実行する”hallucination”です。また言語モデルではLSTMやBERTを利用したタンパク質デザインが近年多数報告されています。また構造・配列にどちらに基づくタンパク質デザインにおいても、生成モデルとして主流のGANまたは、その改良型のアーキテクチャの採用事例が多数存在しています。
個人的に目新しく、本ブログでも紹介の薄かった手法として、
・スコアリング関数
・レコメンデーション
・深層強化学習
などの存在について学べたので、深堀してみたいと思いました。
タンパク質のデザインは、
・目的に応じて難度が異なる
・評価指標が多様化している
ことから、各技術の特徴を相対的に比較することが難しいです。ベンチマークとなるデータセットを元に適切に技術が評価されることが重要と感じます。
コメント