【配列デザイン】超高速に配列デザイン可能な PiFoldを紹介!

論文タイトル

PiFold: Toward effective and efficient protein inverse folding

出典

PiFold: Toward effective and efficient protein inverse folding
How can we design protein sequences folding into the desired structures effectively and efficiently? AI methods for structure-based protein design have attracte...

要旨

タンパク質の新規配列デザイン手法 PiFold の開発を発表した論文です。

解説など

本日も配列設計手法の新法についてです。この分野は GNN ベースのモデルにおける最適化を通じて、手法の良し悪しが競われています。本記事で紹介する PiFold もグラフベースのモデルの1つです。

論文の中ではこの手法の特徴を、アミノ酸残基の特徴量抽出法と PiGNN レイヤに分けて紹介されています。

特徴量抽出では、タンパク質の構造情報を原子間距離、角度、方向をノードとエッジで表現して取り扱っています。また、ニューラルネットワークには、PiGNN と呼ぶレイヤを幾重にも重ねてグローバルなコンテキストレベルで残基間の相互作用まで考慮できる工夫が施されています。

またPiFold は、自己回帰モデルを利用する他の手法と異なり、ワンショットで生成するスキームであり、計算速度がタンパク質の長さに比例することないことが、わかりやすい利点として挙げられます。

PiFoldは、以下の既存の手法と、CATHデータセットを用いてパフォーマンスが比較評価され、結果として、配列回収率やパープレキシティで、ほぼすべての既存手法より優れた成績を示しました。

  • StructGNN
  • StructTrans
  • GCA
  • GVP
  • GVP-large
  • AlphaDesign
  • ESM-IF
  • ProteinMPNN

また推論時間は、AlphaDesignと同等で、その他の手法に比べておよそ70倍短いことが示されました。

ProteinMPNN との性能比較は、最近でもベンチマークが実施されていますので、もう少しこれからの評価結果を見守りたいと思います。少なくとも高速に配列デザインできる手法の有望な選択肢であることは間違いないでしょう。

コードはこちらから。

GitHub - A4Bio/PiFold: The official implementation of the ICLR'23 paper PiFold: Toward effective and efficient protein inverse folding.
The official implementation of the ICLR'23 paper PiFold: Toward effective and efficient protein inverse folding. - A4Bio/PiFold