論文タイトル
DIProT: A deep learning based interactive toolkit for efficient and effective Protein design
出典
要旨
非自己回帰モデルを活用した新規配列デザイン手法を開発し、DIProT という Web アプリを実装した成果を紹介する論文です。
解説など
筆者らの成果は、
- 新規 inverse folding モデルを開発したこと
- ユーザーフレンドリーなタンパク質デザインプラットフォーム (DIProT) を開発したこと
の2つに大別されます。
前者について彼らは、ProteinMPNN のような自己回帰モデルではなく、非自己回帰モデルを活用した配列デザイン手法を提案しています。配列の生成と精緻化を全配列に対して同時に実行することで、teacher forcing problem (誤った出力をきっかけに逐次的に正しくない出力が繰り返される問題) を防ぐことと、計算効率の改善を目指したモデルです。主鎖の原子配置をグラフ表現して、MPNN エンコーダー・デコーダーを介して特徴量の抽出や配列生成を行います。実際にいくつかのベンチマークデータセットで、recovery rate を指標に ProteinMPNN と同等の成績を示しています。
また彼らが開発した end-to-end のデザインプラットフォーム (DIProT) では、主鎖の原子座標を入力情報とすることで、この inverse folding モデルを活用して、アミノ酸配列を生成することができる仕様になっています。
モチーフファイルとして json ファイルを作成することで、デザインするポジションや出現するアミノ酸を限定することも可能です。DIProT はさらに ESMFold と接続されていて、設計した配列のモデリングも可能になっています。モデリング構造に付随して以下の情報も出力されるため、デザインのスクリーニングができます。
- sequence likelihood based score
- RMSD
- pLDDT
タンパク質デザインの全体のスキームにおいて、inverse folding の計算コストは大きく律速にはならないため、計算効率の利点がどれだけ活かせるかは議論が必要ですが、ユーザーフレンドリーな実装は、ミドルユーザーに有益と思います。