論文タイトル
Toward De Novo Protein Design from Natural Language
出典

要旨
自然言語で記述した情報から、その内容を反映したタンパク質配列を生成する手法 Pinal を開発したことを示す論文です。
解説など
自然言語で指示したプロンプトから臨んだタンパク質を設計することは、バイオテクノロジーにおいて究極的な課題の一つです。今は大規模言語モデルを利用した自然言語処理技術が隆盛し、ChatGPT を筆頭に対話形式の文生成手法がオープンになっているため、この課題に取り組む研究者も増えてきました。一方で自然言語とタンパク質との間にある溝は深く、現時点では実用的な手法は存在していません。
筆者らは、この課題に取り組むために、自然言語からタンパク質構造としての特徴を生成し、そのあとにタンパク質配列を生成するという2段階のプロセスを経ることで、タンパク質設計の精度が上げられるか検証しました。実際に原著図に示されるとおり、Swiss-Prot に登録されたタンパク質情報を解析すると、タンパク質全体の配列空間に比べて構造空間の方が狭いことから、タンパク質の特徴をより効率的に表現することができると推察されます。構造から配列を設計する流れは構造ベースのデザイン手法として一般的なフローでもあるため、なじみの深いアプローチです。筆者らが開発した手法は “Pinal” と呼ばれます。
Pinal では先ほど言及したとおり、2つのステップから構成されます。
まず、自然言語によるガイドからタンパク質構造をデザインする際には、T2struct というアーキテクチャを利用します。ここではタンパク質構造を絶対座標としてではなくトークンに変換します。
次に、SaProt-T と呼ぶタンパク質言語モデルを利用して、与えられたタンパク質構造に適したアミノ酸配列を設計します。これはオリジナルのタンパク質言語モデルである SaProt を、テキストを入力情報として利用できるように再訓練したモデルです。
これら2つのアーキテクチャを接続することで、Pinal はテキストベースのプロンプトからタンパク質のアミノ酸配列を生成することができます。
Pinal は以下の既存のタンパク質生成に利用されるモデルと比較して、優れた foldability を示すことが明らかになっています。
- ProteinDT
- Chroma
- ProgGen2(decoder) / PubMedBERT(encoder)
- ESM3
やはり実際のタンパク質名や配列の類似性に言及した記述を入力すると正解配列を出力しやすく、抽象的な機能に関する記述だと精度が下がるそうです。