【配列デザイン】低分子結合まで応用範囲を拡大！ LigandMPNN とは

Atomic context-conditioned protein sequence design using LigandMPNN

低分子リガンドに結合するタンパク質の配列設計ができる深層学習モデル、LigandMPNN を提案した論文です。

タンパク質の配列デザインについてのレポートです。

タンパク質の配列デザインの state-of-the-art は、今でも ProteinMPNN であると認知されています。

この記事で紹介する LigandMPNN は、タンパク質と非タンパク質性分子との結合界面を対象に ProteinMPNN よりもさらに精緻に配列設計できる手法になります。低分子リガンドの想定としては、代謝物、核酸、金属などが挙げられます。

ここからは LigandMPNN の工夫について解説します。

まず、筆者らはリガンドとの相互作用においては、タンパク質に最も近いリガンドの数原子のみが、アミノ酸残基の側鎖の立体構造に影響を与えると仮定して、Cβとリガンド原子との距離が、最も近い 25 のリガンド原子を選択しました。これらに対してノードとエッジを割り当てグラフを構築しています。

また、ProteinMPNN の改良のため、モデルのネットワークには、追加で２つのタンパク質-リガンドエンコーダー層を導入しています。モデル全体として、既存の ProteinMPNN ではパラメータ数が 166 万個あったのに対し、LigandMPNN では、262 万個になりました。

計算速度について言及すると、100 残基のタンパク質のデザインで、単一の CPU を用いたところ、ProteinMPNN で 0.6 秒、LigandMPNN で 0.9 秒の処理時間とのことです。

実際に低分子リガンドとの結合に対して適用すると、配列回収率や２面角誤差が ProteinMPNN に比べて、LigandMPNN デザインの方が優れているというデータが得られています。

また、既往の複合体構造から配列の再設計を LigandMPNN を用いておこなうことで、コール酸に対するバインダーの親和性が 100 倍向上したというデータも紹介されています。

コードはこちらです。ぜひお試しください。