Machine unlearning: Google Research valida um teste de auditoria, mas ainda não para os LLMs

Google Research apresentou na AISTATS 2026 um teste estatístico destinado a auditar o machine unlearning, isto é, a eliminação direcionada de dados de um modelo já treinado. O framework Regularized f-Divergence Kernel Tests, assinado por Mónica Ribero, Antonin Schrab e Arthur Gretton, promete reduzir fortemente o custo experimental de certas auditorias: no mecanismo SVT3 de privacidade diferencial, ele detecta violações com alguns milhares de amostras, enquanto o DP-Auditorium podia exigir milhões. Mas o seu alcance continua limitado: as validações publicadas dizem respeito a benchmarks sintéticos e a conjuntos de dados de física de altas energias, não aos grandes modelos de linguagem, embora sejam estes que concentrem as tensões regulatórias em torno da eliminação, da rastreabilidade e da governança dos dados.

O que o teste corrige e o que ele ainda deixa em aberto

A ferramenta mira um defeito conhecido do teste de duas amostras padrão (MMD). Dois modelos treinados novamente do zero sobre os mesmos dados, mas com tamanhos de lote diferentes, produzem distribuições distintas, o que dispara um falso alarme de falha de unlearning. O novo teste contorna essa armadilha por meio de um teste relativo a três amostras e de uma seleção automática da f-divergence — uma medida de distância entre distribuições — mais adequada a cada tipo de desvio.

O contraste de custo experimental é o principal argumento. No mecanismo SVT3 (Sparse Vector Technique) em privacidade diferencial, o framework detecta violações com alguns milhares de amostras, contra milhões para o DP-Auditorium — a ferramenta de referência publicada por Google Research em 2024 (arXiv:2307.05608) — para uma taxa de detecção comparável. O detalhe importa: o ganho está documentado no SVT3, não no conjunto dos mecanismos de privacidade diferencial, e os autores especificam que nenhuma divergência única domina sistematicamente as outras. Três métodos — Selective Synaptic Dampening (SSD), pruning e finetuning — foram considerados incapazes de apagar efetivamente os dados alvo nas condições experimentais simplificadas do artigo; apenas a técnica random label passou no teste relativo a três amostras, limite que os autores reconhecem.

O alcance para além da visão computacional continua, portanto, por demonstrar. Os trabalhos de arXiv:2510.16629 publicados em outubro de 2025 estabelecem que um modelo nunca pode esquecer perfeitamente dados ajustando apenas os seus parâmetros correntes: subsiste uma marca residual das informações supostamente apagadas — um obstáculo estrutural que o teste de Ribero et al. mede, mas não elimina. Feng et al. (CMU, UK AI Security Institute, Oxford), num preprint de maio de 2025, consideram as avaliações atuais de unlearning em grandes modelos de linguagem inconclusivas, e Chen et al. (LMU Munich, Oxford, Siemens) publicaram simultaneamente um framework de auditoria específico para LLMs — framework não comparado no artigo da AISTATS 2026.

Uma obrigação de resultado sem método juridicamente demonstrável

O RGPD abre, por meio do seu artigo 17 sobre o direito ao apagamento, a possibilidade de uma pessoa exigir a eliminação dos seus dados: aplicado a um modelo de IA, isso equivale a ter de demonstrar que os dados em causa deixaram de influenciar os outputs. O RGPD impõe uma obrigação de eliminação quando as condições do artigo 17 estão reunidas; aplicada a modelos de IA, essa obrigação, contudo, esbarra numa zona cinzenta técnica: como demonstrar que os dados em causa já não continuam a influenciar o comportamento do modelo?

No plano europeu, o enquadramento mais recente não preenche esse vazio. O Code of Practice GPAI, cuja versão final foi publicada pela Commission européenne em julho de 2025, é uma ferramenta voluntária que cobre transparência, direitos de autor e segurança, e ajuda os fornecedores a demonstrar conformidade com o artigo 53 do regulamento AI Act, que impõe um resumo público dos conteúdos utilizados no treino (artigo 53(1)(d), aplicável desde 2 de agosto de 2025). O documento — na versão consultada — não prescreve qualquer método de verificação da eliminação efetiva de um dado num modelo já em produção.

A lacuna fecha-se por meio de ferramentas, não de textos. É precisamente esse vazio que o teste de Ribero, Schrab e Gretton procura instrumentalizar, propondo uma medida estatística defensável de um apagamento bem-sucedido. Resta a prova que ainda não foi superada: enquanto a validação experimental não sair dos benchmarks sintéticos e dos modelos de física para alcançar os grandes modelos de linguagem, onde se concentram os pedidos de apagamento, a cadeia de prova esperada por um encarregado de proteção de dados permanece incompleta.

Stephane Nachez

Redação ActuIA — notícias, dados e análises sobre inteligência artificial para os decisores.

Machine unlearning: Google Research valida um teste de auditoria, mas ainda não para os LLMs

O que o teste corrige e o que ele ainda deixa em aberto

Uma obrigação de resultado sem método juridicamente demonstrável

Ajudados por GPT-5, depois deixados por conta própria: um ensaio randomizado mede o custo de aprendizagem da assistência de IA

O pré-print ExpGraph propõe uma memória em grafo auto-evolutivo para agentes LLM

GPT mais confiante em tarefas difíceis onde mais erra, segundo preprint USC/Berkeley