多重配列アラインメントを使用しないタンパク質構造予測の新手法

論文タイトル

A method for multiple-sequence-alignment-free protein structure prediction using a protein language model

出典

A method for multiple-sequence-alignment-free protein structure prediction using a protein language model - Nature Machine Intelligence

AlphaFold2 has revolutionized bioinformatics, but its ability to predict protein structures with high accuracy comes at the price of a costly database search fo...

要旨

PLM と AlphaFold の手法を活用したタンパク質構造予測モデル HelixFold を紹介した論文です。

解説など

本論文は、タンパク質構造予測の新手法についてです。

本手法のコンセプトは、「AlphaFold の MSA 作成を大規模タンパク質言語モデル (PLM) で代替する」ことです。AlphaFold 活用の課題点の１つは、計算コストの高さであり、その計算の90%以上は MSA の作成に費やされています。従ってこれを効率的な手法に代替できることには、高いニーズがあります。

従来 PLM を単独で利用して構造予測する手法は、様々に公開されてきましたが、いずれも AlphaFold に代表される構造情報を活用した手法比べると予測成績は低いことが知られています。従って本論文では、MSA 作成に PLM を活用することで、双方の課題点を解決することを試みています。

筆者らが提案した手法は、HelixFold-Single と呼ばれるものです。これはまさしく PLM を AlphaFold2 の優れた幾何学学習機能に組み合わせたモデルです。PLM は、一次構造を単一表現とペア表現にエンコードして、ドメイン知識を学習できます。一方でAlphaFold2 の Evoformer および Structure モジュールは、表現を処理し、幾何学的な知識を学習して、原子の座標を予測することを目的としています。

筆者らは本手法の予測精度を、既知の MSA フリーの構造予測モデル、または AlphaFold, RoseTTAFold と比較しています。データセットは、CASP14 および CAMEO から引用されています。代表的な結果は次のとおりです。

HelixFold-Single は、すべての MSA フリー手法の成績を大幅に上回る。
AlphaFold2 (入力: MSA) の精度に匹敵し、RoseTTAFold (入力: MSA) を上回る。
長さが 100 アミノ酸未満のタンパク質の場合、HelixFold-Single の予測時間は AlphaFold2 の予測時間のわずか約 1,000 分の 1。
抗体関連のデータセットの場合、HelixFold-Single はデータセット Antibody-VL および Nanobody で AlphaFold2 に匹敵し、Antibody-VH では AlphaFold2 を上回る。これは、HelixFold-Single が「ターン」または「コイル」のより柔軟な二次構造を持つ領域を正確に予測できる、という特徴に匹敵する。