Umolによる配列情報からのタンパク質-リガンド複合体の構造予測

論文タイトル

Structure prediction of protein-ligand complexes from sequence information with Umol

出典

https://www.biorxiv.org/content/10.1101/2023.11.03.565471v1

要旨

Umol は、タンパク質の配列とリガンドを表す SMILES 文字列から、タンパク質-リガンド複合体の全原子構造を予測する AI システムです。本論文では従来のドッキング方法を上回る精度を示しています。

解説など

タンパク質とリガンドのドッキングシミュレーションを高精度に行う手法 Umol の紹介です。

本ブログでは、これまでに同様のニーズを解決する手法として、RoseTTAFold All-Atom を紹介しました。

本論文では、この手法をベンチマークに、さらに構造予測精度を改善した手法として Umol を提案しています。本手法の特徴は、リガンド構造をSMILES 記法で表現している点にあります。

入力情報は、標的タンパク質はそのアミノ酸配列、タンパク質の標的位置 (ポケット) およびリガンドは、SMILES で表現します。これらの情報から多重配列アラインメント (MSA) および結合マトリックスが作成されます。そして、ネットワーク内で特徴量が生成され、3D 構造が作成される、という流れで構造を予測します。

ベンチマークの結果、高精度を求める閾値では、Umol はRoseTTAFold-AA よりも正確に予測でき、中程度の精度では、既知のタンパク質構造を入力として使用する古典的なドッキング手法さえも上回るとのことです。

Umol と RoseTTAFold All-Atom (RFAA) それぞれが、 45.3% と 42% の SR (RMSD < 2Å) を達成しています。入力情報としてネイティブのタンパク質構造が必要な AutoDock Vina でも 52.3% の成功率とのことで、本手法の予測精度の高さがうかがえます。

リガンドが大きいほどドッキングが難しいこともが示唆されており、SMILES 表現で達成できるサイズの限度も想像できる内容です。

本手法のコードは以下の URL で公開されています。

GitHub - patrickbryant1/Umol: Protein-ligand structure prediction
Protein-ligand structure prediction. Contribute to patrickbryant1/Umol development by creating an account on GitHub.