論文タイトル
Out of Many, One: Designing and Scaffolding Proteins at the Scale of the Structural Universe with Genie 2
出典
要旨
マルチモチーフスキャフォールディングを効率的に行う手法 Genie2 を公開しています。
解説など
AI ベースの新規タンパク質デザイン手法の紹介です。本記事で紹介する Genie2 の特徴は、複数の機能モチーフを1つのタンパク質としてスキャフォールディングできることにあります。過去には RFjoint を利用した別のマルチモチーフスキャフォールディング事例を紹介しました。
こちらの手法では、RFjoint の応用例として RSV タンパク質のスキャフォールディングに成功した結果を公開しています。一方で、今回紹介する Genie2 では、複数の標的タンパク質に対して本手法を適応して、手法の性能をベンチマーク結果として公開されています。
本手法の全バージョンであるオリジナルの Genie が公開されたのは、2023 年です。
この Genie に対して、Genie2 ではモデルのアーキテクチャには主に以下の特徴を加えています。
- 残基単位の特徴量として、モチーフ、スキャフォールドそれぞれに属する残基の分類情報を追加
- 残基ペア間の特徴量として、Ca 間距離情報を追加
RFDiffusion や FrameFlow のモチーフスキャフォールディングでは、モチーフのエンコーディングを原子座標レベルで指定するので、デザイン可能性を高めるためにはモチーフの初期配置を厳密に指定することが絶対条件ですが、Genieのモチーフスキャフォールディングでは、それらを厳格に制限しないため、ある程度柔軟な設計が可能です。
手法のベンチマークでは、
- unconditional design
- single motif scaffolding
- multi motif scaffolding
に分けて評価しています。
Genie 2は、state of the art の手法である RFDiffusion と比較して同等の設計可能性、かつ RFDiffusion に比べて多様性の高いデザインを生成できるとの主張です。一方で、デザインのサンプリング効率は低く、RFDiffusion に比べて生成に 1.5 ~ 3 倍の時間がかかります。
一方で、マルチモチーフスキャフォールディングでは、6つのデザインケースに適応し、それぞれ 1000 構造をサンプリングしたところ、(17, 11, 8, 4, 0, 0)というデザイン成功数であったと報告されています。この成否を決める要因を究明していくことが今後の課題のひとつとなるでしょう。
コードはこちら。