【遺伝子オントロジー】配列からタンパク質の機能を説明する文書生成技術を紹介!

論文タイトル

Automated Protein Function Description for Novel Class Discovery

出典

Automated Protein Function Description for Novel Class Discovery
Knowledge of protein function is necessary for understanding biological systems, but the discovery of new sequences from high-throughput sequencing technologies...

確認したいこと

深層学習を利用した、タンパク質構造予測・デザイン手法をベンチマークしています。

要旨

タンパク質の配列情報から、その機能を説明するテキストを生成する、深層学習モデルを提案した論文です。

解説など

遺伝子オントロジー(GO)とは、遺伝子に対して、その生物学的な機能に着目してつけられるアノテーションです。GOを調べることで、その遺伝子の機能を推定することができます。この推定をアノテーションがついていない新規な配列に対しておこなうことが、本論文における課題です。同種の課題を解決できる既存の手法として、ProTranslatorと呼ばれる方法があるのですが、本論文で紹介されている手法は、これと比較し、配列セット以外の追加情報を必要としないことが特徴とのことです。

ProTranslator: zero-shot protein function prediction using textual description
Accurately finding proteins and genes that have a certain function is the prerequisite for a broad range of biomedical applications. Despite the encouraging pro...

筆者らは、配列から特徴量を抽出するために、長さ変換器を含む、トランスフォーマーエンコーダ・デコーダモデルを使用しています。また、テキスト生成時の探索にはビーム探索を使用しています。

訓練データとしては、Uniprot -KB Swiss-Protに登録された566,996配列です。構築されたモデルでテキスト生成された事例がTable 3に示されています。正解データと比べても、キーワードレベルで多くの一致が見られていました。

コメント