【FragFold】AlphaFoldを使用した阻害タンパク質断片の高速計算手法を開発!

論文タイトル

High-throughput computational discovery of inhibitory protein fragments with AlphaFold

出典

https://www.biorxiv.org/content/10.1101/2023.12.19.572389v1

要旨

この研究では、AlphaFold を用いてタンパク質断片がターゲットタンパク質に結合・阻害するかどうかを予測する新しい方法、FragFold の開発を報告しています。

解説など

著者たちは、タンパク質相互作用ペアの結合界面を予測する方法として FragFold を提案しています。

これは、一方の相互作用タンパク質をフラグメント化したうえで、各フラグメントがもう一方のタンパク質と結合するかどうかを予測することで、その結合サイトを予測する、という方法です。結合の有無はAlphaFold を用いて予測しています。

AlphaFold に阻害ペプチド断片を大規模に並行して予測するアプローチ自体は、著者が過去に報告していますので、その手法をエピトープ探索に応用した、というのが本論文の主旨です。

Mapping functional regions of essential bacterial proteins with dominant-negative protein fragments - PubMed
Massively parallel measurements of dominant-negative inhibition by protein fragments have been used to map protein interaction sites and discover peptide inhibi...

ここからは具体的な方法について解説します。

すべてのケースにおいて、AlphaFold のウェイトには、単一ポリペプチド鎖データのみに基づいてトレーニングされたものを使用しています。天然タンパク質の相互作用を含む情報はトレーニング データには存在していません。

また、高速に AlphaFold を実行する工夫として、MSA の生成ステップに手を加えています。各断片それぞれに対して MSA を作成するのは、非常にコストがかかりますので、Full-length の標的タンパク質に対して MSA を作成し、それをフラグメント化することで、各フラグメントに対する MSA を作成しています。

筆者らは FragFold を複数のタンパク質相互作用ペアに対して適応して、87%の精度で既知の天然相互作用様式を予測できることを確認しています。

また予測の精度を見積もるための指標として、「ピーク幅」と「接触残基数」が重要であることを明らかにしています。まずピーク幅についてですが、タンパク質のフラグメントセットは重複を含むように1アミノ酸ずつずらして作成します。従って全長タンパク質のアミノ酸残基数分、結合の可能性がスコアで算出できるわけです。信頼性の高い相互作用は、実際に相互作用界面となる特定の領域にわたって広く結合を検出できますが(ピーク幅が広い)、信頼性の低い相互作用は、とあるフラグメントのみ偽陽性的に結合が検出されるものの、その周囲のフラグメントでは結合が検出されない結果となります(ピーク幅が狭い)。これを指標にその相互作用が信頼性が高いか低いか推測することができます。また、接触残基数が単純に高い方が予測精度が高いという傾向が得られているとのことです。

一般的なドッキングシミュレーションに比べてどういった利点があるかが、本手法の価値に関わる重要なポイントですが、例えば複数の結合様式が考えられる場合は、こちらの手法の方がもれなくその相互作用を検出できる可能性があると感じます。

FragFold のコードはこちらで公開されています。

GitHub - swanss/FragFold
Contribute to swanss/FragFold development by creating an account on GitHub.