ContextEcho: contextuele compressie verhelpt geen persoonlijkheidsdrift, benchmark op 23 modellen

ContextEcho: contextuele compressie verhelpt geen persoonlijkheidsdrift, benchmark op 23 modellen

In kort : Contextuele compressie lost de persoonlijkheidsdrift niet betrouwbaar op in AI-modellen. Een benchmark op 23 modellen toont aan dat een single-shot anker effectiever is.

De contextuele compressie, het standaard mechanisme dat door implementators wordt geactiveerd om lange agent-sessies te ondersteunen zonder het venster te verzadigen, verhelpt de persoonlijkheidsdrift niet op een betrouwbare manier. Een open-source benchmark documenteert dit op 23 grensmodellen en biedt een geteste oplossing: een single-shot anker herstelt de oorspronkelijke registratie getraind op alle geëvalueerde doelen, zonder hertraining, via de standaard API voor chat-completions. Het werk, genaamd ContextEcho, is op 22 mei 2026 ingediend op arXiv door Xianzhong Ding, onderzoeker bij het Center for Advanced AI van Accenture en voormalig postdoc bij het Lawrence Berkeley National Lab (2024-2025) volgens zijn OpenReview-profiel. Het is ook ingediend voor de NeurIPS 2026 Evaluations & Datasets Track, anoniem onderworpen aan een double-blind review. De testomgeving, gepubliceerd op Hugging Face, wordt vergezeld door een testharnas dat is opgeslagen in een geanonimiseerd depot waarvan de toegang beperkt blijft tijdens de anonieme evaluatie.

23 geëvalueerde modellen: verklaarde robuustheid, beperkte verifieerbaarheid

ContextEcho kondigt resultaten aan op 23 grensmodellen van verschillende organisaties, zonder hun nominatieve lijst te publiceren in toegankelijke bronnen. De drie referentiesessies die worden gebruikt zijn geanonimiseerd, wat de externe reproduceerbaarheid beperkt. De benchmark wordt verder onderworpen aan een double-blind review bij de NeurIPS 2026 Evaluations & Datasets Track: de conclusies zijn nog niet peer-reviewed gepubliceerd.

Een reeks van 25 sondes aangesloten zonder de sessie te verstoren

De architectuur combineert vier bouwstenen. Een reeks van 25 identiteitssondes (25-probe identity suite) onderzoekt de gedragscoherentie van het model; een snapshot-then-probe protocol splitst de conversatiestaat zonder de hoofdsessie te verstoren, waardoor drift kan worden gemeten zonder deze te veroorzaken; aanvullende meetsurfaces judged (beoordeeld door een model-rechter) en judge-free (metrische berekeningen zonder intermediaire LLM) combineren beide benaderingen. Het geheel is gebaseerd op drie geanonimiseerde Claude Code-sessies die respectievelijk 3.746 en tot 9.716 conversatierondes bestrijken, een volume buiten het bereik van klassieke persoonlijkheidsstabiliteitsprotocollen, die zich richten op korte dialogen. De evaluatie heeft betrekking op 23 grensmodellen van verschillende organisaties, waarvan de nominatieve lijst op dit moment niet is gepubliceerd: de robuustheid van het single-shot anker is bevestigd op alle geëvalueerde doelen, maar de precieze voorwaarden van elk doel blijven niet verifieerbaar buiten de reikwijdte van het artikel. Wat betreft downstream-gebruik, is het effect modusafhankelijk: in gereedschapsloze modus breekt de drift de formatteringscontracten en verlengt het de uitvoerlengte; in gereedschapsmodus kan het de voortzetting van het gebruik van gereedschappen vergemakkelijken.

Een algemene drift en een standaardpalliatief dat niet standhoudt

De eerste structurele les heeft een transversale reikwijdte: de persoonlijkheidsdrift wordt algemeen waargenomen binnen organisaties en is niet specifiek voor een modellenfamilie. Van het gehele geëvalueerde panel lijkt geen enkele technische lijn (of het nu uit een Amerikaans, Europees of Aziatisch laboratorium komt) immuun. De tweede les richt zich op een mechanisme dat vaak als oplossing wordt gepresenteerd: de compressie tijdens de sessie reset de persoonlijkheidsdrift niet op een betrouwbare manier. Compressie (glijdende samenvatting van de context tijdens het gesprek) is precies de hefboom die implementators activeren om lange sessies te ondersteunen zonder het venster te verzadigen. De bevinding van de auteurs is dus direct relevant voor agent-architecturen in productie die op deze bron vertrouwen. Het resultaat moet onafhankelijk worden bevestigd: het werk is ingediend voor deze NeurIPS-track, met een anonieme evaluatie in uitvoering, en de compressie-implementaties variëren aanzienlijk van systeem tot systeem, wat voorzichtigheid vereist voordat men industriële veralgemening overweegt. De gedragscoherentie van agenten tijdens lange sessies is nu een actief onderwerp: een parallel werk van Purdue, When the Specification Emerges, onderzoekt tegelijkertijd het verlies aan trouw van een coderingsagent wanneer de specificatie geleidelijk ontstaat. Op het bredere gebied van gedragsmatige AI-evaluatie, merkte ActuIA al op dat Google DeepMind een kader voorstelde om de capaciteiten en het gedrag van IAG te classificeren, wat aantoont dat het veld rijpt richting gestandaardiseerde meetprotocollen.

Geen enkele technische lijn lijkt immuun.

De persoonlijkheidsdrift wordt algemeen waargenomen binnen organisaties en is niet specifiek voor een modellenfamilie - volgens de auteurs van ContextEcho op 23 grensdoelen.

Een benchmark verbonden aan een adviesbureau, niet aan een puur academisch laboratorium

De institutionele verbinding van de bijdrage verdient het om te worden vastgesteld. Xianzhong Ding is sinds 2025 onderzoeker bij het Center for Advanced AI van Accenture, na een postdoc bij het Lawrence Berkeley National Lab tussen 2024 en 2025, en een proefschrift in Electrical Engineering and Computer Sciences aan UC Merced. Het profiel combineert dus Amerikaanse publieke energie en toegepast onderzoek in een groot adviesbureau. ActuIA documenteerde al de toenemende investering van de groep op dit front, volgens de aankondigingen van het bureau: Accenture kondigde in 2023 een investering van 3 miljard dollar aan in AI en Data volgens hun eigen communicatie, en, nog steeds volgens de groep, versterkte hun aanwezigheid in Frankrijk met twee centra gewijd aan generatieve AI. ContextEcho maakt deel uit van dit beleid van gepubliceerde onderzoeksproductie: het werk richt zich op een internationale academische presentatie van topniveau (NeurIPS), met een evaluatiecorpus per cel en gegeven sessievoorvoegsels, beschikbaar gesteld op Hugging Face met dezelfde indiening. De methodologische bijzonderheid ligt in de implementatie-anker: drie geanonimiseerde Claude Code-sessies worden gebruikt als basisgegevens, wat aangeeft dat de auteurs voorkeur hebben gegeven aan sporen van daadwerkelijk gebruik in plaats van synthetische testbanken, een onderscheid dat zwaar weegt in een veld waar veel evaluatieprotocollen nog gebaseerd zijn op in het laboratorium gecreëerde dialogen.

 

Het oog van ActuIA

Het echte onderwerp van ContextEcho is niet het tekstuele anker, maar de bevinding die het noodzakelijk maakt: de compressie, die standaard door teams wordt geactiveerd om lange sessies te ondersteunen, houdt de belofte van coherentie niet in. De orkestratielaag van agent-implementators is dus al achttien maanden gebaseerd op een palliatief dat volgens de auteurs ontoereikend is op 23 grensmodellen.