論文タイトル
PoseBusters: AI-based docking methods fail to generate physically valid poses or generalise to novel sequences
出典
要旨
物理・化学的な指標をもとに既存のドッキング予測手法をベンチマークするための評価パッケージ PoseBusters について報告した論文です。
解説など
近年様々な深層学習モデルが、ドッキングシミュレーションの手法においても例にもれず開発されています。公開された手法はいずれも非DLベースの手法を超えた成績を示すことを謳っていますが、その結果に疑義を唱えているのが、こちらの論文です。
筆者らは、非DLベースの手法の方が、いまだDLベースの手法よりも予測精度が優れていると主張しています。その根拠はドッキングシミュレーションで用いられてきた評価指標にあります。従来はRMSD値をベースに複合体構造と類似しているかどうかで、手法の精度が評価されてきました。それに対し筆者らは物理的もしくは科学的な第一原理に基づく制約をクリアしているかどうかで、手法の精度を評価すべきと主張しています。
具体例を挙げると、物理的な妥当性のチェックには、結合長や結合角、芳香環の平面性などが挙げられます。また化学的な妥当性には、官能基の妥当性やイオン化状態の正しさなどが挙げられます。
筆者らは、これらのこれまで評価されていなかった項目を含めて、一連の品質チェックを実行する計算手法をPythonのパッケージにして公開しています。このパッケージをPoseBustersと呼んでいます。
PoseBusters のテスト項目は、以下に示す3 つのグループで構成されています。
- 化学的妥当性
- 分子内特性
- 分子間相互作用
計算処理のところどころで、RDKitというケモインフォツールを利用しています。
著者らが実際にベンチマークしたドッキング手法は下記のとおりです。
- DLベースの手法
- DeepDock
- DiffDock
- EquiBind
- TankBind
- Uni-Mol
- 非DLベースの手法
- AutoDock Vina
- CCDC Gold
ベンチマークした結果として、DL ベースのドッキング手法の1つである DiffDock が RMSD だけの観点からは最も優れたパフォーマンスを発揮するように見えますが、物理的な妥当性を考慮すると、Gold と AutoDock Vina が最も優れたパフォーマンスを発揮することがわかりました。
また、DL ベースのドッキング手法が新しいデータにうまく一般化できない傾向もあったとのことです。PoseBusters ベンチマークセット全体における DL ベースのメソッドのパフォーマンスは低く、PDBbind 2020 との配列同一性が低い PoseBusters ベンチマーク セットのサブセットでは、DL ベースのメソッドがトレーニングされたタンパク質に、過剰適合する傾向があることが明らかになりました。
以上が、結果の概要です。どのような評価指標が重要かドッキングシミュレーションを行う目的によっても異なると思います。おおまかなポーズを予測して、相互作用領域が同定できれば良いのであれば、RMSD値ベースで比較するのが適切である、と考えることもできます。
やはり将来的には、双方の指標を正確に満たす予測手法が現れてくれることに期待するところです。