人工智能领域的研究

Machine unlearning:Google Research 验证了一项审计测试,但尚未覆盖 LLMs

Google Research 在 AISTATS 2026 提出一项用于审计 machine unlearning 的统计测试,可显著降低部分实验成本,但目前仅在合成基准和高能物理数据集上验证,尚未覆盖大型语言模型。

STStephane Nachez · · ·1 min
Machine unlearning:Google Research 验证了一项审计测试,但尚未覆盖 LLMs
Sommaire

Google Research 在 AISTATS 2026 上提出了一项用于审计 machine unlearning 的统计测试,即在已训练模型中定向删除数据。该框架 Regularized f-Divergence Kernel Tests 由 Mónica Ribero、Antonin Schrab 和 Arthur Gretton 共同署名,承诺大幅降低某些审计的实验成本:在差分隐私机制 SVT3 上,它只需数千个样本即可检测违规,而 DP-Auditorium 可能需要数百万个样本。不过,其适用范围仍然有限:已公开的验证仅覆盖合成基准和高能物理数据集,并未涉及大型语言模型;而后者恰恰是围绕数据删除、可追溯性与数据治理的监管争议焦点。

该测试修正了什么,又留下了什么问题

该工具针对标准双样本检验(MMD)的一个已知缺陷。两个从零开始、基于相同数据重新训练但批大小不同的模型,会产生不同分布,从而触发“unlearning 失败”的误报。新测试通过三样本相对检验,以及自动选择最适合当前漂移类型的 f-divergence——一种分布间距离度量——来规避这一陷阱。

实验成本上的对比是其主要卖点。在差分隐私机制 SVT3(Sparse Vector Technique)上,该框架只需数千个样本即可检测到违规,而 Google Research 于 2024 年发布的参考工具 DP-Auditorium(arXiv:2307.05608)在达到相近检测率时可能需要数百万个样本。值得注意的是,这一增益仅在 SVT3 上得到验证,并非适用于所有差分隐私机制;作者也明确指出,没有任何单一 divergence 能始终压倒其他方法。论文中的简化实验条件下,Selective Synaptic Dampening(SSD)、pruningfinetuning 三种方法都被判定为无法有效删除目标数据;只有 random label 技术通过了三样本相对检验,作者也承认了这一限制。

而在 vision 之外的适用性仍有待证明。2025 年 10 月发布的 arXiv:2510.16629 指出,仅通过调整当前参数,模型不可能彻底忘记数据:被删除信息仍会留下残余痕迹——这是一个结构性障碍,而 Ribero 等人的测试只能衡量它,并不能消除它。Feng 等人(CMU、UK AI Security Institute、Oxford)在 2025 年 5 月的一篇预印本中认为,当前针对大型语言模型的 unlearning 评估尚无定论;与此同时,Chen 等人(LMU Munich、Oxford、Siemens)也同步发布了一个面向 LLMs 的专门审计框架——但这一路径并未在 AISTATS 2026 论文中进行对比。

结果义务存在,但缺少可对抗的方法

GDPR 通过第 17 条“被遗忘权”赋予个人要求删除其数据的可能性:当这一权利适用于 AI 模型时,意味着必须证明相关数据已不再影响 outputs。GDPR 在满足第 17 条条件时确立了删除义务;但应用于 AI 模型时,这一义务会遇到一个技术上的灰色地带:如何证明相关数据不再持续影响模型行为?

在欧洲层面,最新框架并未填补这一空白。欧盟委员会于 2025 年 7 月发布最终版本的 GPAI Code of Practice,这是一个涵盖透明度、版权和安全性的自愿性工具,旨在帮助提供方证明其符合 AI Act 第 53 条的要求;该条款要求公开训练所用内容的摘要(第 53(1)(d) 条,自 2025 年 8 月 2 日起适用)。但在所查阅版本中,该文件并未规定任何用于验证已部署模型中某项数据是否被有效删除的方法。

这一差距并非由法律文本弥补,而是要靠工具来弥补。Ribero、Schrab 和 Gretton 的测试正是试图填补这一空白:提供一种可辩护的统计测量方式,来证明删除已成功。只是,最关键的考验仍未通过:只要实验验证仍停留在合成基准和物理模型,而没有进入数据删除请求最集中的大型语言模型场景,数据保护官所期待的证据链就仍然是不完整的。

ST
Stephane Nachez
subscriber

Rédaction ActuIA — actualités, données et analyses sur l'intelligence artificielle pour les décideurs.