論文タイトル
ProteusAI: An Open-Source and User-Friendly Platform for Machine Learning-Guided Protein Design and Engineering
出典
要旨
タンパク質のデザインと評価に有用な機械学習ツールを実装したオープンソースのライブラリである ProteusAI を紹介した論文です。
解説など
デンマーク工科大学からのレポートです。筆者らはタンパク質のエンジニアリングに使用できる機械学習アルゴリズムをオープンソースかつユーザーフレンドリーに使用できるツールを開発しました。
これまであったタンパク質エンジニアリングに関する機械学習のソフトウェアスートを、
- 情報やコミュニティの公開性:open / closed
- ユーザビリティ:user-friendly / unfriendly
で分類すると以下のとおりになります。
- open-source / user-unfriendly
- ftMLDE
- DeCOIL
- SaprotHub
- closed / user-friendly
- STAR
- ProteinEngine
- open-source /non-community driven
- Damietta
筆者らは、オープンソース、ユーザーフレンドリーかつコミュニティ開発の ML ライブラリであることを特徴とした ProteusAI を開発しました。このツールは5つのモジュールで構築されています。以下にこの5つの役割について解説します。
Discovery module
これは与えられた配列集団をクラスタリングして、機能性をもつ配列を選抜するためのツールです。
PLM により配列のエンベディングを取得して分類タスクを実行します。ラベルなしデータから
単純に配列的な特徴に基づいた分類をするだけでなく、ラベルつきのデータを使用することで活性のある既知配列と同族のクラスタを同定する、といった活用も可能です。ラベルなしデータからラベル付きのデータへと解析をシームレスに移行することができます。
Protein design module
構造情報に基づいてタンパク質の活性や熱安定性、可溶性を予測します。この手法には inverse folding model も含まれます。多様性を生み出しつつ WT よりも安定性の高い配列を inverse folding で生み出します。ライブラリ内には、活性中心を保存するため重要残基の中から指定した範囲の残基を固定するツールも存在します。
Zero-shot module
PLM を使って、最適化の初回ラウンドに使用するの変異ライブラリを生成します。PLM には ESM-1v や ESM-2 が使用できます。
MLDE module
MLDE とは、ML-guided directed evolution のことです。2nd ラウンド以降の最適化は前ラウンドまでの実験データを活用して分子進化を行います。配列探索には、ベイズ最適化を活用します。
Representations module
最後はタンパク質のエンベディングを純粋に取得するためのモジュールです。モジュールの中には取得した表現を可視化するツールも実装されています。
コードはこちら。