タンパク質の相互作用予測を誰でもできるパイプラインを紹介

論文タイトル

LazyAF, a pipeline for accessible medium-scale in silico prediction of protein-protein interactions

出典

LazyAF, a pipeline for accessible medium-scale in silico prediction of protein-protein interactions

Artificial intelligence has revolutionized the field of protein structure prediction. However, with more powerful and complex software being developed, it is ac...

要旨

タンパク質の相互作用をインシリコで予測するLazyAFパイプラインの開発を報告した論文です。

解説など

筆者らのモチベーションは、オープンソースで実装されたタンパク質構造予測手法を最大限に活用して、ウェットベンチ研究者がインシリコでタンパク質モデリングやデザインができるプラットフォームを開発することです。具体的には、ColabFold BATCHと連携して、タンパク質の新規PPIをスクリーニングするプラットフォーム LazyAF パイプラインを構築しています。

LazyAFパイプラインを次のフローで解析がすすみます。

1)ColabFold BATCHの入力ファイル準備

ユーザーはまず、標的抗原候補のアミノ酸配列と、バインダー候補の配列を含む MultiFASTA ファイルを用意します。すると LazyAF は、標的抗原配列とバインダーがコロン（：）で結合された FASTA ファイルを自動で生成してくれます。これが次の ColabFold によるマルチマー予測の入力ファイルとなります。

2)ColabFold BATCHでの構造予測

このステップでは ColabFold BATCH を活用して、各バインダー候補と標的抗原との複合体構造を予測します。本文の実施例では、Colab Pro プランから利用できる、A100 または V100 の GPU を使用して構造予測を行っています。

3)相互作用ペアのランキング

ColabFold BATCH の出力ファイルから、確度の高い相互作用ペアをランキング化するのが、最後のステップです。出力されたJSONファイルから、pTMとipTMを抽出し、

ランキングスコア = (0.2 x pTM + 0.8) x ipTM

の計算式により信頼スコアを算出して、スコアの高い配列をソートします。

筆者らはこのパイプラインを、RK2 ゲノムにコードされている 76 個間のタンパク質間相互作用予測に適用しました。76 x 76、つまり5,776 個の相互作用ペアを予測することになります。結果はヒートマップで紹介されています。意外なことに、bait と prey の組み合わせ、つまりどちらをコロンの左として入力するかで、スコアに違いが現れることがわかりました。この論文では両方向から高い信頼スコアを示すモデルが相互作用の高いペアであると判断しています。ウェットでの評価はなく、結果の解釈が十分ではありませんが、あくまで既存のツールを使ったパイプラインであることから、その有用性はある程度予想できます。本来マニュアルで処理する工程がスキーム化されて、非バイオインフォマティシャンが扱えるように環境を整備したことが重要な成果です。