論文タイトル
Mechanistic Interpretability of Antibody Language Models Using SAEs
出典
要旨
抗体言語モデル(p-IgGen)の内部表現を Sparse Autoencoder(SAE)で分解することで、「解釈できる特徴」と「生成を実際に制御できる特徴」は別物であることを示した論文です。
解説など
抗体LLMについて、なぜその配列が出たのか、どの内部特徴が生成を支配しているのか、について考察することを目的に、筆者らは Sparse Autoencoder (SAE) を活用して解析しています。
SAE とは、LLM 内部の“混ざった信号”を、できるだけ「意味ごとに分離する装置」です。
LLMの高次ベクトルの一つ一つを解釈し、CDRH3・V/J遺伝子・長さ制約など、人が理解できる意味に置き換えることができます。
筆者らは、SAEの手法として、
- TopK SAE(特徴:スパース、視覚的に解釈しやすい、feature splittingが起きやすい)
- Ordered SAE(特徴:高レベル概念を保持、Steering向き、活性パターンは直感的でない)
の2種類を活用しています。
TopK SAEは、
- 「IMGT 117番の Tyr」
- 「J領域末端の Gly」
- 「この短いモチーフ」
のように、意味を細かく分類するため (feature splitting)、MECEである一方で、1つの要素を制御しても、例えばジャームライン変更のような全体の制御は困難です。
Ordered SAEでは、「この配列は J4 系の文脈で生成されるべき」、「J領域の雰囲気」のように重複はあるものの一つの要素だけで配列全体を制御することができます。
筆者らはこの違いをp-IgGenという抗体LLMを利用して、「IGHJ4の配列を優先的に生成する」という問題設定の中で確かめています。
この結果から、TopK SAEはLLMの解釈に適した手法であり、Ordered SAEは生成の制御に有効であることが分かります。generative model を活用した配列生成が主流ですが、リード最適化など、目的に適した配列を推論時に制御する場合において、Ordered SAE は有効である可能性があると考えられます。

