【総説】タンパク質複合体構造予測の現在地

論文タイトル

Deep learning for protein complex structure prediction

出典

Deep learning for protein complex structure prediction - PubMed
Recent developments in the structure prediction of protein complexes have resulted in accuracies rivalling experimental methods in many cases. The high accuracy...

Curr Opin Struct Biol. 2023 Apr;79:102529.

確認したいこと

深層学習を用いたタンパク質デザイン手法をベンチマークしています。

バインダーデザインにおけるスクリーニング手法の一つとして、インシリコで複合体構造を予測するモデルについて理解を深めたいと思い、内容を確認しました。

要旨

タンパク質の複合体構造を予測する手法の課題について整理したレビュー論文です。

章立て

  1. 緒言
  2. MSAと構造に基づく、複合体構造の予測方法
  3. 非構造化領域について
  4. 超複合体
  5. 宿主-病原分子間の相互作用
  6. 将来展望と課題

解説など

タンパク質の複合体構造をインシリコで予測する技術に関する総説です。深層学習を用いた手法について言及しています。現状、最も有望な複合体予測ツールは、AlphaFold2 のモードの1つであるAlphaFold-Multimerです。本論文でもAlphaFold-Multimer をベンチマークとして、その可能性や課題をまとめています。

そもそも複合体構造を予測することの難しさには、様々な要素が存在します。単純にタンパク質鎖や残基の数が増えることによる複雑性の増加以外には、次のような原因が挙げられます。

  • MSAを作ることが難しい
    • 配列情報のほとんどは、一本鎖でしか利用できない
  • 相互作用時の構造変化を考慮できない

3者以上の分子による複合体では、さらに予測精度が低下します。2者複合体では平均TMスコアが0.8であるのに対して、3者以上だと0.6まで低下するとのことです。

また、宿主-病原体間相互作用では、種間の重複がないためオルソログを見出すことができず、共進化情報を活用できないため、予測精度が落ちます。

近年では、MSAが利用できない情報を鑑みて、OmegaFoldやESMFoldなど言語モデルを利用した予測モデルも公開されていますが、MSAの予測精度を上回るには、もう一歩技術革新が必要そうです。

転移学習や自己蒸留などが、将来展望のキーワードとして挙げられていましたので、今後の発展に期待しましょう。

コメント