【AI学習】初心者でも学べるAIタンパク質設計手法の教育用ノートブック DL4Proteins とは

論文タイトル

DL4Proteins Jupyter Notebooks Teach how to use Artificial Intelligence for Biomolecular Structure Prediction and Design

出典

DL4Proteins Jupyter Notebooks Teach how to use Artificial Intelligence for Biomolecular Structure Prediction and Design
Computational methods for predicting and designing biomolecular structures are increasingly powerful. While previous approaches relied on physics-based modeling...

要旨

AI×タンパク質設計の最先端ツール(RFDiffusion・ProteinMPNN・AlphaFold2 など)を誰でも学べるよう体系化した「教育用ノートブック(10本)」を作成したという教育研究です。

解説など

Jeffrey J. Gray 率いるラボで、DL4Proteins という教育用ノートブックが公開されました。AIを活用したタンパク質設計の研究は非常に学際的で、生物学だけでなく、数学、プログラミング、計算科学など多様な分野に精通している必要があります。筆者らが公開した DL4Proteins ではこれらを体系的に学ぶことが可能です。

  • Google Colab だけで最先端モデルを実行
  • ML 基礎 → GNN/拡散モデル → RFDiffusion/MPNN までを一貫して学べる
  • 数学直感の構築、コードセル、図解、interactive viewer など

ノートブックの構成は次のとおりです。

  • Part I:基礎機械学習(WS01–03)
    • 目的:数学なしでも直感で“ニューラルネットとは何か”を理解する
    • WS01:NumPy で自作 NN
    • WS02:PyTorch で NN
    • WS03:CNN 基礎
  • Part II:高度 DL アーキテクチャ(WS04, WS07, WS08)
    • 目的:タンパク質に使われる代表的 DL モデルを小規模データで実装して理解
    • WS04:言語モデル(Shakespeare → Protein)
    • WS07:Graph Neural Network(GNN)
    • WS08:拡散モデル(DDPM)
  • Part III:最新のタンパク質構造予測・設計ツール(WS05,06,09,10)
    • WS05:Protein LM のファインチューニング(LoRA)
    • WS06:AlphaFold2 の実践(ColabFold)
    • WS09:End-to-End 設計パイプライン
    • WS10:RFDiffusion All-Atom

いわゆる構造生成ツールの使い方だけではなく、PLM の fine tuning などにまで広げて解説しているのが特徴です。今後も Flow matching や discrete diffusion についての解説が追加されていく予定とのことです。

ノートはこちら。

GitHub - Graylab/DL4Proteins-notebooks: Colab Notebooks covering deep learning tools for biomolecular structure prediction and design
Colab Notebooks covering deep learning tools for biomolecular structure prediction and design - Graylab/DL4Proteins-notebooks