ContextEcho: a compactação não corrige a deriva de persona, benchmark em 23 modelos

A compactação de contexto, o mecanismo padrão que os implementadores ativam para manter sessões longas de agentes sem saturar a janela, não corrige a deriva de persona de forma confiável. Um benchmark de código aberto documenta este ponto em 23 modelos de fronteira e propõe uma resposta testada: uma âncora de injeção única (single-shot anchor) restaura o registro de origem treinado em todo o conjunto de alvos avaliados, sem retreinamento, via a API padrão de conclusão de mensagens (chat-completions). O trabalho, batizado de ContextEcho, foi depositado no arXiv em 22 de maio de 2026 por Xianzhong Ding, pesquisador do Center for Advanced AI da Accenture e ex-pós-doutorando no Lawrence Berkeley National Lab (2024-2025) segundo seu perfil OpenReview; ele também está submetido ao NeurIPS 2026 Evaluations & Datasets Track, em avaliação anônima duplo-cega (double-blind review). O ambiente de teste, publicado no Hugging Face, é acompanhado de uma estrutura de testes (harness) depositada em um repositório anonimizado cujo acesso permanece restrito durante o tempo da avaliação anônima.

23 modelos avaliados: robustez declarada, verificabilidade limitada

ContextEcho anuncia resultados em 23 modelos de fronteira oriundos de diferentes organizações, sem publicar sua lista nominal nas fontes acessíveis. As três sessões de referência utilizadas são anonimizadas, o que restringe a reprodutibilidade externa. O benchmark está, além disso, em revisão duplo-cega no NeurIPS 2026 Evaluations & Datasets Track: suas conclusões ainda não foram objeto de uma avaliação por pares publicada.

Uma sequência de 25 sondas conectadas sem perturbar a sessão

A arquitetura combina quatro blocos. Uma sequência de 25 sondas de identidade (25-probe identity suite) interroga a coerência comportamental do modelo; um protocolo snapshot-then-probe bifurca o estado conversacional sem perturbar a sessão principal, o que permite medir a deriva sem provocá-la; superfícies de medição complementares judged (avaliação por um modelo-julgador) e judge-free (métricas calculadas sem LLM intermediário) cruzam as duas abordagens. Tudo isso se apoia em três sessões Claude Code anonimizadas cobrindo respectivamente 3.746 e até 9.716 turnos de conversa, um volume fora do alcance dos protocolos clássicos de estabilidade de persona, que se concentram em diálogos curtos. A avaliação incide, segundo os autores, sobre 23 modelos de fronteira oriundos de diferentes organizações, cuja lista nominal não é publicada neste estágio: a robustez da âncora em injeção única é atestada em todos os alvos avaliados, mas as condições precisas de cada alvo permanecem não verificáveis independentemente fora do perímetro do artigo. No lado do uso a jusante, o efeito é modo-dependente: em modo sem ferramenta, a deriva rompe os contratos de formatação e inflaciona o comprimento das saídas; em modo com ferramentas, ela pode facilitar a continuação do uso das ferramentas.

Uma deriva geral, e um paliativo padrão que não se sustenta

A primeira lição estruturante é de alcance transversal: a deriva de persona é observada de forma geral através das organizações, e não específica a uma família de modelos. Em todo o painel avaliado, nenhuma linhagem técnica (seja de um laboratório americano, europeu ou asiático) parece imunizada. A segunda lição mira um mecanismo comumente apresentado como solução: a compactação durante a sessão não reinicia a deriva de persona de forma confiável. Ora, a compactação (resumo deslizante do contexto ao longo da conversa) é precisamente a alavanca que os implementadores ativam para manter sessões longas sem saturar a janela. A constatação dos autores diz respeito diretamente às arquiteturas de agentes em produção que se apoiam neste recurso. O resultado ainda precisa ser confirmado independentemente: o trabalho está submetido a este track NeurIPS, em avaliação anônima, e as implementações de compactação variam sensivelmente de um sistema para outro, o que exige cautela antes de qualquer generalização industrial. A coerência comportamental dos agentes em sessões longas é agora um assunto ativo: um trabalho adjacente de Purdue, When the Specification Emerges, examina em paralelo a perda de fidelidade de um agente codificador quando a especificação emerge progressivamente. No campo mais amplo da avaliação comportamental das IAs, ActuIA já notava que Google DeepMind propunha um quadro para classificar as capacidades e o comportamento das IAG, ilustrando a maturação do campo em direção a protocolos de medição padronizados.

Nenhuma linhagem técnica parece imunizada.

A deriva de persona é observada de forma geral através das organizações, e não específica a uma família de modelos - segundo os autores de ContextEcho em 23 alvos de fronteira.

Um benchmark apoiado por uma consultoria, não por um laboratório acadêmico puro

A afiliação institucional da contribuição merece ser colocada. Xianzhong Ding é pesquisador no Center for Advanced AI da Accenture desde 2025, após um pós-doutorado no Lawrence Berkeley National Lab entre 2024 e 2025, e um doutorado em Electrical Engineering and Computer Sciences na UC Merced. O perfil cruza assim a energia pública americana e a pesquisa aplicada em uma grande empresa de consultoria. ActuIA já documentava o crescente investimento do grupo nesta frente, segundo os anúncios da consultoria: Accenture anunciou em 2023 um investimento de 3 bilhões de dólares em IA e Data segundo sua própria comunicação, e posteriormente, ainda segundo o grupo, reforçou sua presença na França com dois centros dedicados à IA generativa. ContextEcho se insere nesta política de produção de pesquisa publicada: o trabalho visa uma vinda acadêmica de primeiro escalão internacional (NeurIPS), com um corpus de avaliação por célula e prefixos de sessões dados, disponibilizado no Hugging Face com a mesma submissão. A particularidade metodológica reside na ancoragem da implementação: três sessões Claude Code anonimizadas são mobilizadas como dados de base, sinal de que os autores privilegiaram traços oriundos de uso efetivo em vez de bancadas de teste sintéticas, uma distinção que pesa, em um campo onde muitos protocolos de avaliação ainda se baseiam em diálogos construídos em laboratório.

O olho da ActuIA

O verdadeiro tema de ContextEcho não é a âncora textual, é a constatação que a torna necessária: a compactação, este recurso que as equipes ativam por padrão para manter sessões longas, não cumpre a promessa de coerência. A camada de orquestração dos implementadores de agentes repousa, portanto, há dezoito meses, sobre um paliativo que os autores dizem falhar em 23 modelos de fronteira.

Stephane Nachez

Redação ActuIA — notícias, dados e análises sobre inteligência artificial para os decisores.