Machine unlearning: Google Research valida una prueba de auditoría, pero aún no en los LLMs

Google Research presentó en AISTATS 2026 una prueba estadística destinada a auditar el machine unlearning, es decir, el borrado selectivo de datos en un modelo ya entrenado. El framework Regularized f-Divergence Kernel Tests, firmado por Mónica Ribero, Antonin Schrab y Arthur Gretton, promete reducir de forma drástica el coste experimental de ciertas auditorías: sobre el mecanismo SVT3 de privacidad diferencial, detecta violaciones con unos pocos miles de muestras, cuando DP-Auditorium podía exigir millones. Pero su alcance sigue siendo limitado: las validaciones publicadas se refieren a benchmarks sintéticos y a conjuntos de datos de física de altas energías, no a los grandes modelos de lenguaje, justo cuando estos concentran las tensiones regulatorias en torno al borrado, la trazabilidad y la gobernanza de los datos.

Lo que la prueba corrige y lo que deja abierto

La herramienta aborda un defecto conocido de la prueba estándar de dos muestras (MMD). Dos modelos reentrenados desde cero sobre los mismos datos pero con tamaños de lote diferentes producen distribuciones distintas, lo que activa una falsa alerta de fallo de unlearning. La nueva prueba evita esta trampa mediante una prueba relativa a tres muestras y una selección automática de la f-divergence —una medida de distancia entre distribuciones— más adecuada para cada tipo de deriva.

El contraste en el coste experimental es el argumento principal. Sobre el mecanismo SVT3 (Sparse Vector Technique) en privacidad diferencial, el framework detecta violaciones con unos pocos miles de muestras, frente a millones para DP-Auditorium —la herramienta de referencia publicada por Google Research en 2024 (arXiv:2307.05608)— para una tasa de detección comparable. El detalle importa: la mejora está documentada sobre SVT3, no sobre el conjunto de mecanismos de privacidad diferencial, y los autores precisan que ninguna divergencia única domina sistemáticamente a las demás. Tres métodos —Selective Synaptic Dampening (SSD), pruning y finetuning— fueron considerados incapaces de borrar de forma efectiva los datos objetivo en las condiciones experimentales simplificadas del artículo; solo la técnica random label superó la prueba relativa a tres muestras, una limitación que los autores reconocen.

El alcance más allá de la visión, por su parte, sigue por demostrar. Los trabajos de arXiv:2510.16629 publicados en octubre de 2025 establecen que un modelo nunca puede olvidar perfectamente unos datos ajustando únicamente sus parámetros actuales: persiste una huella residual de la información supuestamente borrada, un obstáculo estructural que la prueba de Ribero et al. mide pero no elimina. Feng et al. (CMU, UK AI Security Institute, Oxford), en un preprint de mayo de 2025, consideran que las evaluaciones actuales de unlearning sobre grandes modelos de lenguaje no son concluyentes, y Chen et al. (LMU Munich, Oxford, Siemens) publicaron al mismo tiempo un marco de auditoría específico para los LLMs —marco no comparado en el artículo de AISTATS 2026.

Una obligación de resultado sin método oponible

El RGPD abre, a través de su artículo 17 sobre el derecho de supresión, la posibilidad de que una persona exija la eliminación de sus datos: aplicado a un modelo de IA, esto equivale a tener que demostrar que los datos afectados han dejado de influir en los outputs. El RGPD impone una obligación de supresión cuando se cumplen las condiciones del artículo 17; aplicada a los modelos de IA, esta obligación se topa, sin embargo, con una zona gris técnica: ¿cómo demostrar que los datos afectados ya no siguen influyendo en el comportamiento del modelo?

A escala europea, el marco más reciente no cubre ese vacío. El Code of Practice de GPAI, cuya versión final publicó la Comisión Europea en julio de 2025, es una herramienta voluntaria que abarca transparencia, derechos de autor y seguridad, y que ayuda a los proveedores a demostrar su conformidad con el artículo 53 del reglamento AI Act, que impone un resumen público de los contenidos utilizados para el entrenamiento (artículo 53(1)(d), aplicable desde el 2 de agosto de 2025). El documento —en la versión consultada— no prescribe ningún método para verificar el borrado efectivo de un dato en un modelo ya desplegado.

La brecha se cierra con herramientas, no con los textos. Ese es precisamente el vacío que la prueba de Ribero, Schrab y Gretton intenta cubrir, proponiendo una medida estadística defendible de un borrado exitoso. Queda, no obstante, la prueba que no se ha superado: mientras la validación experimental no salga de los benchmarks sintéticos y de los modelos de física para llegar a los grandes modelos de lenguaje, donde se concentran las solicitudes de supresión, la cadena de prueba esperada por un delegado de protección de datos seguirá incompleta.

Stephane Nachez

Redacción de ActuIA — noticias, datos y análisis sobre inteligencia artificial para los responsables de decisiones.

Machine unlearning: Google Research valida una prueba de auditoría, pero aún no en los LLMs

Lo que la prueba corrige y lo que deja abierto

Una obligación de resultado sin método oponible

Ayudados por GPT-5, y luego dejados a su suerte: un ensayo aleatorizado mide el coste del aprendizaje de la asistencia de IA

El preprint ExpGraph propone una memoria en grafo autoevolutiva para agentes LLM

GPT más seguro en tareas difíciles donde más se equivoca, según un preprint de USC/Berkeley