La compaction de contexte, le mécanisme standard qu'activent les déployeurs pour tenir des sessions d'agent longues sans saturer la fenêtre, ne corrige pas la dérive de persona de façon fiable. Un benchmark open source documente ce point sur 23 modèles frontière et propose une réponse testée: une ancre en injection unique (single-shot anchor) restaure le registre d'origine entraîné sur l'ensemble des cibles évaluées, sans réentraînement, via l'API standard de complétion de messages (chat-completions). Le travail, baptisé ContextEcho, a été déposé sur arXiv le 22 mai 2026 par Xianzhong Ding, chercheur au Center for Advanced AI d'Accenture et ancien postdoctorant au Lawrence Berkeley National Lab (2024-2025) selon son profil OpenReview; il est également soumis au NeurIPS 2026 Evaluations & Datasets Track, en cours d'évaluation anonyme à double insu (double-blind review). L'environnement de test, publié sur Hugging Face, est accompagné d'un cadre de tests (harness) déposé sur un dépôt anonymisé dont l'accès reste restreint le temps de l'évaluation anonyme.

23 modèles évalués : robustesse déclarée, vérifiabilité limitée

ContextEcho annonce des résultats sur 23 modèles frontière issus de différentes organisations, sans publier leur liste nominative dans les sources accessibles. Les trois sessions de référence utilisées sont anonymisées, ce qui restreint la reproductibilité externe. Le benchmark est par ailleurs en double-blind review au NeurIPS 2026 Evaluations & Datasets Track : ses conclusions n'ont pas encore fait l'objet d'une évaluation par les pairs publiée.

Une suite de 25 sondes branchée sans perturber la session

L'architecture combine quatre briques. Une suite de 25 sondes d'identité (25-probe identity suite) interroge la cohérence comportementale du modèle; un protocole snapshot-then-probe bifurque l'état conversationnel sans perturber la session principale, ce qui permet de mesurer la dérive sans la provoquer; des surfaces de mesure complémentaires judged (évaluation par un modèle-juge) et judge-free (métriques calculées sans LLM intermédiaire) croisent les deux approches. Le tout s'appuie sur trois sessions Claude Code anonymisées couvrant respectivement 3 746, et jusqu'à 9 716 tours de conversation, un volume hors d'atteinte des protocoles classiques de stabilité de persona, qui se concentrent sur des dialogues courts. L'évaluation porte, selon les auteurs, sur 23 modèles frontière issus de différentes organisations, dont la liste nominative n'est pas publiée à ce stade: la robustesse de l'ancre en injection unique est attestée sur l'ensemble des cibles évaluées, mais les conditions précises de chaque cible restent non vérifiables indépendamment hors du périmètre du paper. Côté usage en aval, l'effet est mode-dépendant: en mode sans outil, la dérive rompt les contrats de formatage et gonfle la longueur des sorties; en mode avec outils, elle peut faciliter la continuation de l'utilisation des outils.

Une dérive générale, et un palliatif standard qui ne tient pas

Le premier enseignement structurant est de portée transversale: la dérive de persona est observée de manière générale à travers les organisations, et non spécifique à une famille de modèles. Sur l'ensemble du panel évalué, aucune lignée technique (qu'elle vienne d'un laboratoire américain, européen ou asiatique) ne semble immunisée. Le second enseignement vise un mécanisme couramment présenté comme solution: la compaction en cours de session ne réinitialise pas la dérive de persona de façon fiable. Or la compaction (résumé glissant du contexte au fil de la conversation) est précisément le levier que les déployeurs activent pour tenir des sessions longues sans saturer la fenêtre. Le constat des auteurs concerne donc directement les architectures agents en production qui s'appuient sur ce ressort. Le résultat reste à confirmer indépendamment: le travail est soumis à ce track NeurIPS, en cours d'évaluation anonyme, et les implémentations de compaction varient sensiblement d'un système à l'autre, ce qui appelle à la prudence avant toute généralisation industrielle. La cohérence comportementale des agents sur sessions longues est désormais un sujet actif: un travail adjacent de Purdue, When the Specification Emerges, examine en parallèle la perte de fidélité d'un agent codeur lorsque la spécification émerge progressivement. Sur le terrain plus large de l'évaluation comportementale des IA, ActuIA notait déjà que Google DeepMind proposait un cadre pour classer les capacités et le comportement des IAG, illustrant la maturation du champ vers des protocoles de mesure standardisés.

Aucune lignée technique ne semble immunisée.

La dérive de persona est observée de manière générale à travers les organisations, et non spécifique à une famille de modèles - selon les auteurs de ContextEcho sur 23 cibles frontière.

Un benchmark adossé à un cabinet de conseil, pas à un laboratoire académique pur

Le rattachement institutionnel de la contribution mérite d'être posé. Xianzhong Ding est chercheur au Center for Advanced AI d'Accenture depuis 2025, après un postdoctorat au Lawrence Berkeley National Lab entre 2024 et 2025, et une thèse en Electrical Engineering and Computer Sciences à UC Merced. Le profil croise donc l'énergie publique américaine et la recherche appliquée en grande entreprise de conseil. ActuIA documentait déjà l'investissement croissant du groupe sur ce front, selon les annonces du cabinet: Accenture a annoncé en 2023 un investissement de 3 milliards de dollars dans l'IA et la Data selon sa propre communication, puis, toujours selon le groupe, renforcé sa présence en France avec deux centres dédiés à l'IA générative. ContextEcho s'inscrit dans cette politique de production de recherche publiée: le travail vise une venue académique de premier rang international (NeurIPS), avec un corpus d'évaluation par cellule et des préfixes de sessions donnés, mis à disposition sur Hugging Face avec la même soumission. La particularité méthodologique tient à l'ancrage déploiement: trois sessions Claude Code anonymisées sont mobilisées comme données de base, signe que les auteurs ont privilégié des traces issues d'usage effectif plutôt que des bancs d'essai synthétiques, une distinction qui pèse, dans un champ où nombre de protocoles d'évaluation reposent encore sur des dialogues construits en laboratoire.

 

L'oeil ActuIA

Le vrai sujet de ContextEcho n'est pas l'ancre textuelle, c'est le constat qui la rend nécessaire : la compaction, ce ressort que les équipes activent par défaut pour tenir des sessions longues, ne tient pas la promesse de cohérence. La couche d'orchestration des déployeurs d'agents repose donc, depuis dix-huit mois, sur un palliatif que les auteurs disent défaillant sur 23 modèles frontière.