【RFDiffusion】バインダーデザインにおけるAF2スクリーニングのコツ

背景

RFDiffusion は、多様な機能をもつタンパク質を自然発生できる画期的なデザイン手法です。本ブログでも過去にその概要を紹介しました。

一方で、RFDiffusion でデザインした実施例も多くないため、このツールが汎用的に活用できるか疑問点も多いのが現状です。そこでこの記事では、バインダーデザインへの RFDiffusion の適用に絞って、成功確率を上げるコツを解説してみたいと思います。

方法

この記事で参考にしたのは、Nature に掲載された RFDiffusion 論文における公開データです。

De novo design of protein structure and function with RFdiffusion - Nature

Fine-tuning the RoseTTAFold structure prediction network on protein structure denoising tasks yields a generative model for protein design that achieves outstan...

バインダーデザインに関しては、一部の生データが公開されています。それは、ウェット実験に進めたデザインに対して RFDiffusion で生成したモデルと、それを AlphaFold2 (AF2) で予測したモデルです。AF2 モデルの PDB ファイルについては、pAE と pLDDT の値も格納されています (標的抗原が Insulin receptor の場合は除く）。

デザインの標的抗原は以下の 5 種類で、各 95 個のモデルの情報を取得することができます。

IL7Ra
PD-L1
Influenza HA
Insulin receptor
Trka

また各モデルに対して、ウェット実験の結果からそのデザインが標的抗原に対して結合活性を持っていたかを示すラベル（TRUE or FALSE）がついています。

これらの情報をもとに、各モデルについて以下の指標を算出してみました。ここから計算した各指標が、デザインの成功率にどれくらい寄与するのか検証してみたいと思います。

SAP（タンパク質の凝集性向）
SASA（溶媒露出表面積）
SC（相互作用における形状相補性）
Cα-RMSD
pAE
pLDDT
総結合エネルギー
水素結合数
水素結合エネルギー
疎水・親水性結合エネルギー
荷電性結合エネルギー

いずれもRosettaのデフォルトの設定値や力場を利用して計算しています。

結果

計算したcsvファイルはこちらからダウンロードできます。

考察

まずこれらのデータからは、いずれの指標もバインダーかそうでないかを効率的に見分けることは難しいことが分かります。Binder 属性が、TRUE か FALSE かで、各指標に有意な差はほとんどありません。

公開されているデータは、全てAF2 によるスクリーニングを終えたデザインなので、ここまで多様な選抜条件を超えたデザインの機能は、現時点では、実験でしか評価できないのかもしれません。ちなみに古典的な機械学習手法で、これらの指標をもとにバインダーの２値分類モデルも作成してみましたが、7-8 割程度の正解率に留まりました。

一方で、今回算出したこれらの指標の絶対値は、AF 2スクリーニング時の指標としては参考になる可能性があります。少なくともデザインがこれらの値に収まらない限り、論文の実施例を再現できているとは言えないでしょう。しかし、各エネルギー算出値やAF2 指標（pAE, pLDDT）は、抗原種に依存して値が大きく上下するため、各抗原の特徴に合わせてクライテリアを変更する必要があるかもしれません。

要望がありましたら、今後 ProteinMPNN による配列デザインや、エピトープ選抜の観点からも、バインダーデザインの成功率について考察していければと思います。