【タンパク質構造解析】CASP15で好成績を収めたDeepFoldを深掘り!

論文タイトル

DeepFold: enhancing protein structure prediction through optimized loss functions, improved template features, and re-optimized energy function

出典

Handle Redirect

要旨

DeepFold は、新しいタンパク質の構造予測モデルです。タンパク質の側鎖とバックボーンの精度を高めるために、損失関数とテンプレート機能、エネルギー関数に最適化の工夫がみられます。

解説など

DeepFold という名の新しいタンパク質構造予測モデルの紹介です。韓国のアカデミア研究者からの発表になります。CASP15 のブラインドテストで 132 グループ中 4 位にランクインしたモデルです。

さっそく、AF2 との違いを中心にモデルの特徴をみていきましょう。

概要として、DeepFold には、以下に示す3つの特徴があります。

  1. 損失関数の最適化: DeepFoldは、側鎖のねじれ角度とフレームアラインドポイントエラーの損失関数を変更し、側鎖の信頼性と二次構造予測のための新しい損失関数を追加しました。
  2. テンプレート特徴の改善: AlphaFold2 のテンプレート特徴生成を、条件付きランダムフィールドに基づく新しいアラインメント方法で置き換えました。
  3. エネルギー関数の再最適化: 分子力学エネルギー関数を使用して、distogramと側鎖予測から得られるポテンシャルエネルギーを統合し、予測構造を再最適化しました​​。

このブログでは、2番目の条件付きランダムフィールドについて、少し言及します。

条件付きランダムフィールド(Conditional Random Fields, CRF)は、機械学習の分野で使用されるモデルの一種で、主にラベル付けやパターン認識タスクに用いられます。CRFは、特にシーケンスデータ(例えば、テキストやタンパク質のアミノ酸配列)に対して効果的です。

CRFは、与えられた入力シーケンスに対して最も可能性の高い出力シーケンスを予測するために、隣接する要素間の依存関係をモデル化します。このモデルは、入力データの各要素がその周辺のコンテキストに依存しているという仮定に基づいています。

DeepFoldでは、AlphaFold2のテンプレート特徴生成を、CRFに基づく新しいアラインメント方法で置き換えています。これにより、タンパク質の構造予測におけるテンプレートの利用が改善され、全体的な予測精度が向上しています。

ここからは、予測成績について言及していきます。DeepFold と AlphaFold2 の予測精度の比較結果については、以下のポイントが挙げられます。

  • AlphaFoldとの比較: CASP13のFMターゲット31個でAlphaFoldとのモデリング精度を比較した結果、DeepFoldは20のターゲットでAlphaFoldを上回りました。DeepFoldの平均TMスコアは0.636で、AlphaFoldの0.589と比較して高いとのことです(p値=0.025)​​。
  • AlphaFold2およびRosettaFoldとの比較: AlphaFold2とRosettaFoldの最新の自己注意ベースのニューラルネットワーク手法と比較すると、DeepFoldのTMスコア(TMスコア=0.751)は、RosettaFold(平均TMスコア=0.812および0.838)とAlphaFold2(平均TMスコア=0.903)に比べて低かったとのことです​​。
  • DeepFoldはAlphaFold2と比較していくつかのターゲットで優れたパフォーマンスを示し、特にMolProbityスコアの改善や、特定の困難なターゲットでの高い精度で顕著でした。しかし、全体的にはAlphaFold2の方が平均的に高いTMスコアを記録しています。MolProbityのような独自のスコアでないとAF2を超える性能を示すことは難しいモデルのようです。