論文タイトル
SSH2.0: A Better Tool for Predicting the Hydrophobic Interaction Risk of Monoclonal Antibody
出典

要旨
抗体の疎水性相互作用を予測するウェブツール SSH2.0 を紹介した論文です。
解説など
前回の記事に引き続き、抗体の developability を予測する手法開発についてです。
本論文では developability の中でも疎水性相互作用を予測する手法を紹介しています。筆者らが開発した予測ツール SSH2.0 は配列情報のみから疎水性相互作用を予測すること、そして予測アルゴリズムがウェブツールとして公開されていることが特徴です。
名前から推測できるとおり、過去に前バージョンの SSH を開発していました。これは臨床試験にすすんだ抗体配列とそれらの疎水性相互作用評価データ(SMAC, SGAC-SINS, HICなど)を訓練データとして活用したサポートベクターマシンモデルです。前手法の課題としては、訓練に用いたデータ数に比べて特徴量の数が多く過学習を起こしやすいことが挙げられていました。そこで筆者らは特徴量を抽出・選抜するテクニックを織り交ぜ、より堅牢なモデルを作ることを試みています。
訓練データは先ほど述べたとおり、臨床試験にすすんだ計 131 種類の抗体配列です。
- Approved: 48
- Clinical II/III trials: 89
- (6 records were eliminated)
各抗体に対して、以下 3 種類の実験系によって疎水性相互作用を評価されています。
- SMAC
- SGAC-SINS
- HIC
この論文では、このいずれかの系でアラートが立った配列は、疎水性を示す抗体としてラベルされます。
ここからが、本論文の肝となる、抗体配列から特徴を抽出する方法論についてです。
筆者らは、CKSAAGP という手法を利用して配列のエンベディングを取得しています。これは20種類のアミノ酸を(aliphatic, aromatic, positive charged, negative charged, uncharged) の5種類のグループに分け、配列フラグメント内での各グループ残基の出現頻度をベースにベクトル化する手法です。この方法の特徴は抗体のように多様な長さの配列から同じサイズの特徴量を、単純なアルゴリズムで算出できることです。筆者らはさらに、モデルの汎化能を改善するため CKSAAGP で得られた特徴量の数を MRMD2.0 によって削減しています。
このようにして得られた特徴量をもとに構築されたサポートベクターマシンモデルが SSH2.0 です。このモデルは検証により、100%の検出率、83.97%の正解率を達成したことが示されています。
本手法を技術的に改善するなら、sequence embedding に PLM を活用することが真っ先に思いつきます。現状の律速はデータ数の少なさが、個別タスクの予測精度を制限していると考えられます。
ツールは、こちらから利用可能です。