ContextEcho: la compactación no corrige la deriva de persona, benchmark en 23 modelos

La compactación de contexto, el mecanismo estándar que activan los implementadores para mantener sesiones de agentes largas sin saturar la ventana, no corrige la deriva de persona de manera confiable. Un benchmark de código abierto documenta este punto en 23 modelos frontera y propone una respuesta probada: un ancla de inyección única (single-shot anchor) restaura el registro de origen entrenado en el conjunto de objetivos evaluados, sin reentrenamiento, a través de la API estándar de finalización de mensajes (chat-completions). El trabajo, llamado ContextEcho, fue depositado en arXiv el 22 de mayo de 2026 por Xianzhong Ding, investigador en el Center for Advanced AI de Accenture y ex postdoctorado en el Lawrence Berkeley National Lab (2024-2025) según su perfil de OpenReview; también está sometido al NeurIPS 2026 Evaluations & Datasets Track, en proceso de evaluación anónima a doble ciego (double-blind review). El entorno de prueba, publicado en Hugging Face, está acompañado de un marco de pruebas (harness) depositado en un repositorio anonimizado cuyo acceso permanece restringido durante la evaluación anónima.

23 modelos evaluados: robustez declarada, verificabilidad limitada

ContextEcho anuncia resultados sobre 23 modelos frontera de diferentes organizaciones, sin publicar su lista nominativa en las fuentes accesibles. Las tres sesiones de referencia utilizadas están anonimizadas, lo que restringe la reproducibilidad externa. El benchmark además está en doble-blind review en el NeurIPS 2026 Evaluations & Datasets Track: sus conclusiones aún no han sido objeto de una evaluación por pares publicada.

Una serie de 25 sondas conectadas sin perturbar la sesión

La arquitectura combina cuatro bloques. Una serie de 25 sondas de identidad (25-probe identity suite) interroga la coherencia comportamental del modelo; un protocolo snapshot-then-probe bifurca el estado conversacional sin perturbar la sesión principal, lo que permite medir la deriva sin provocarla; superficies de medición complementarias judged (evaluación por un modelo-juez) y judge-free (métricas calculadas sin LLM intermedio) cruzan los dos enfoques. Todo ello se basa en tres sesiones Claude Code anonimizadas que cubren respectivamente 3,746 y hasta 9,716 turnos de conversación, un volumen fuera del alcance de los protocolos clásicos de estabilidad de persona, que se concentran en diálogos cortos. La evaluación se centra, según los autores, en 23 modelos frontera de diferentes organizaciones, cuya lista nominativa no se publica en esta etapa: la robustez del ancla en inyección única está atestiguada en el conjunto de objetivos evaluados, pero las condiciones precisas de cada objetivo permanecen no verificables independientemente fuera del perímetro del artículo. En cuanto al uso posterior, el efecto depende del modo: en modo sin herramienta, la deriva rompe los contratos de formato y aumenta la longitud de las salidas; en modo con herramientas, puede facilitar la continuación del uso de las herramientas.

Una deriva general, y un paliativo estándar que no se sostiene

La primera enseñanza estructural es de alcance transversal: la deriva de persona se observa de manera general a través de las organizaciones, y no es específica de una familia de modelos. En todo el panel evaluado, ninguna línea técnica (ya provenga de un laboratorio estadounidense, europeo o asiático) parece inmunizada. La segunda enseñanza apunta a un mecanismo comúnmente presentado como solución: la compactación en curso de sesión no reinicia la deriva de persona de manera confiable. Sin embargo, la compactación (resumen deslizante del contexto a lo largo de la conversación) es precisamente la palanca que los implementadores activan para mantener sesiones largas sin saturar la ventana. La observación de los autores afecta directamente a las arquitecturas de agentes en producción que se basan en este recurso. El resultado queda por confirmar independientemente: el trabajo está sometido a este track NeurIPS, en proceso de evaluación anónima, y las implementaciones de compactación varían sensiblemente de un sistema a otro, lo que llama a la prudencia antes de cualquier generalización industrial. La coherencia comportamental de los agentes en sesiones largas es ahora un tema activo: un trabajo adyacente de Purdue, When the Specification Emerges, examina en paralelo la pérdida de fidelidad de un agente codificador cuando la especificación emerge progresivamente. En el campo más amplio de la evaluación comportamental de las IA, ActuIA ya notaba que Google DeepMind proponía un marco para clasificar las capacidades y el comportamiento de las IAG, ilustrando la maduración del campo hacia protocolos de medición estandarizados.

Ninguna línea técnica parece inmunizada.

La deriva de persona se observa de manera general a través de las organizaciones, y no es específica de una familia de modelos, según los autores de ContextEcho sobre 23 objetivos frontera.

Un benchmark respaldado por una consultora, no por un laboratorio académico puro

El vínculo institucional de la contribución merece ser planteado. Xianzhong Ding es investigador en el Center for Advanced AI de Accenture desde 2025, después de un postdoctorado en el Lawrence Berkeley National Lab entre 2024 y 2025, y una tesis en Electrical Engineering and Computer Sciences en UC Merced. El perfil cruza así la energía pública estadounidense y la investigación aplicada en gran empresa de consultoría. ActuIA ya documentaba la creciente inversión del grupo en este frente, según los anuncios de la consultora: Accenture anunció en 2023 una inversión de 3 mil millones de dólares en IA y Datos según su propia comunicación, y luego, siempre según el grupo, reforzó su presencia en Francia con dos centros dedicados a la IA generativa. ContextEcho se inscribe en esta política de producción de investigación publicada: el trabajo apunta a una presencia académica de primer rango internacional (NeurIPS), con un corpus de evaluación por célula y prefijos de sesiones dados, puestos a disposición en Hugging Face con la misma sumisión. La particularidad metodológica radica en el anclaje de implementación: tres sesiones Claude Code anonimizadas son movilizadas como datos base, señal de que los autores han privilegiado trazas provenientes de uso efectivo en lugar de bancos de prueba sintéticos, una distinción que pesa en un campo donde muchos protocolos de evaluación aún se basan en diálogos construidos en laboratorio.

El ojo de ActuIA

El verdadero asunto de ContextEcho no es el ancla textual, es la constatación que la hace necesaria: la compactación, ese recurso que los equipos activan por defecto para mantener sesiones largas, no cumple la promesa de coherencia. La capa de orquestación de los implementadores de agentes se basa, desde hace dieciocho meses, en un paliativo que los autores dicen fallido en 23 modelos frontera.

Stephane Nachez

Redacción de ActuIA — noticias, datos y análisis sobre inteligencia artificial para los responsables de decisiones.