深層学習だけで、HCDR3の構造を予測

論文タイトル

Simple End-to-end Deep Learning Model for CDR-H3 Loop Structure Prediction

出典

Simple End-to-end Deep Learning Model for CDR-H3 Loop Structure Prediction
Predicting a structure of an antibody from its sequence is important since it allows for a better design process of synthetic antibodies that play a vital role ...

確認したいこと

深層学習を利用した、タンパク質構造予測・デザイン手法をベンチマークしています。

要旨

抗体のHCDR3構造を、配列から予測するための手法 SimpleDH3を提案している論文です。

解説など

抗体のHCDR3は、MSAの作成が難しく、もともと柔軟性の高いループ構造であることから、AlphaFold2やRoseTTAFoldなど、既往の構造予測手法でも決定が困難な構造です。筆者らは、SimpleDH3と名付けた手法で、HCDR3に特化した構造予測を試みています。

H3に特化した構造予測手法のひとつに、DeepH3という手法があります。

筆者らは、このDeepH3をベンチマークとなる手法に設定しています。DeepH3も深層学習を利用した構造予測手法です。DeepH3では、H3の残基間距離や配向を学習するのですが、そのあとに、RosettaAntibodyパッケージを活用して構造を精緻化します。この第2工程の計算コストが高いことを筆者らは課題ととらえています。

SimpleDH3では、end-to-endの深層学習アーキテクチャで構造の決定までおこないます。これにより計算コストを抑えつつ、精緻な構造予測がおこなえることを謳っています。

予測モデルの詳細は以下の通りです。

データセットとエンベディング

UniRef50データセットで事前学習したELMoを用いて、学習するH3構造をエンベディングしています。H3はSAbDabデータベースから取得した1970の構造です。

アーキテクチャ

順・逆方向のLSTMレイヤを並列させて、両者を平均化したようなネットワークとなっています。

テストデータで予測精度を検証したところ、予測した構造の妥当性はDeepH3と同等程度でしたが、計算時間が1/10となっていました。ループの長さを延長しても予測精度に大きな低下はみられなかったとのことです。

本手法は、DeepH3と異なり学習データにFv全長の構造は利用しないとのことです。さらにこの手法の予測精度を改善しようとしたときに、この点がどれくらいネックになるのか興味があります。

コメント