Un préprint déposé sur arXiv le 29 mai 2026, baptisé ExpGraph, défend qu'un agent fondé sur un grand modèle de langage peut accumuler de l'expérience réutilisable sans qu'aucun paramètre du modèle exécuteur ne soit modifié - celui-ci reste gelé et interchangeable. La thèse déplace la question du budget IA: investir dans un modèle plus puissant, ou dans une couche mémoire externe portative qui voyage d'un exécuteur à l'autre? Le cadre est signé par onze chercheurs rattachés à l'université de l'Illinois à Urbana-Champaign, à la Nanyang Technological University et à Meta Monetization AI. Le papier, classé en traitement automatique du langage (cs.CL sur arXiv), n'a pas été soumis à relecture par les pairs à la date de sa mise en ligne; ses résultats sont déclarés par les auteurs.
Diffusion de graphe et copilote RL: le mécanisme d'ExpGraph
ExpGraph résume les trajectoires historiques d'un agent en compétences réutilisables et en leçons d'échec, qu'il organise comme nœuds dans un graphe d'expérience auto-évolutif. La récupération combine une diffusion de graphe et un classement par utilité; un copilote léger entraîné par apprentissage par renforcement (RL) sélectionne les expériences à injecter, avec pour signal de récompense l'écart de performance de l'exécuteur avec et sans expérience récupérée. La présence parmi les auteurs de Jiaxuan You, spécialiste reconnu des réseaux de neurones sur graphes (GraphSAGE, Open Graph Benchmark), est un signal de crédibilité technique pour la composante diffusion graphe du cadre. Sur le plan empirique, les auteurs déclarent dans le préprint des gains de 12,2 % et 4,7 % sur des tâches statiques selon la taille de l'exécuteur, et de 21,4 % et 12,7 % dans des environnements agentiques incluant ALFWorld, environnement de simulation domestique devenu standard d'évaluation pour agents (le détail des autres environnements n'est pas accessible depuis l'abstract). L'évaluation repose toutefois sur ExpSuite, un benchmark conçu par les auteurs eux-mêmes, et la baseline retenue n'est pas nommée dans l'abstract - deux pièces que la lecture du papier complet permettra seule de cadrer.
Benchmark maison, baseline non nommée
Les gains de performance revendiqués par ExpGraph sont mesurés sur ExpSuite, un protocole d'évaluation conçu par les auteurs du papier. La baseline de comparaison n'est pas nommée dans le préprint. Ces résultats ne sont pas encore passés par une revue par les pairs - à manier avec précaution avant toute généralisation.
Une lignée académique active, et déjà passée par la relecture par les pairs
ExpGraph s'inscrit dans une lignée de travaux sur l'apprentissage expérientiel des agents LLM, dont plusieurs ont déjà franchi le cap de la peer review. Deux papiers acceptés à ICLR 2026 - l'une des trois grandes conférences internationales d'apprentissage machine - sont particulièrement comparables. NAVER LABS Europe, à Meylan, y a publié Retrieval-Augmented LLM Agents: Learning to Learn from Experience, qui pose qu'«atteindre une généralisation robuste à des tâches inconnues reste un défi majeur» (traduction libre) pour les agents généralistes. La même conférence a accepté From Experience to Strategy, qui propose «un cadre de mémoire en graphe multi-couches, entraînable, centré sur l'agent» (traduction libre) couplé à une optimisation des poids guidée par récompense. Le passage de la liste plate d'expériences - paradigme historiquement associé aux cadres antérieurs, dont ExpeL (AAAI 2024) - vers une structure en graphe n'est donc pas inédit; il a déjà été instrumenté et validé par des relectures académiques. L'espace n'est pas vierge: ExpGraph s'y ajoute comme variante, pas comme rupture, et reste pour l'instant le seul des trois à n'avoir pas reçu de validation externe.
Trois papiers contemporains sur la mémoire agentique
| Papier | Institution | Statut | Approche mémoire |
|---|---|---|---|
| Retrieval-Augmented LLM Agents | NAVER LABS Europe | ICLR 2026 - peer-reviewed | RAG expérientiel |
| From Experience to Strategy | Non précisée | ICLR 2026 - peer-reviewed | Graphe mémoire entraînable (RL) |
| ExpGraph | UIUC + NTU + Meta Monetization AI | arXiv préprint - non peer-reviewed | Graphe d'expériences structurées |
Mémoire externe ou modèle plus capable: deux paris qui ne disent pas la même chose
La proposition d'ExpGraph, signée par l'équipe UIUC, NTU et Meta Monetization AI, contient une thèse architecturale revendiquée par ses auteurs: le fine-tuning sur expériences collectées améliore certes la réutilisation, mais devient inflexible dès qu'un exécuteur plus puissant ou mieux adapté émerge. La conséquence, défendue dans le préprint, est que la connaissance accumulée doit vivre hors du modèle pour rester portable lorsque le modèle change. La trajectoire d'Anthropic illustre le pari inverse: muscler le modèle pour que les gains agentiques voyagent avec lui - des agents Claude optimisés pour la programmation jusqu'à Claude Opus 4.8 annoncé le 28 mai 2026, avec une limite assumée: ces gains ne survivent pas au remplacement du modèle. Une troisième variante, plus marginale, déplace encore le centre de gravité vers des architectures d'auto-amélioration des modèles, encore au stade exploratoire dans les laboratoires industriels. Aucun travail empirique publié ne tranche aujourd'hui le différend: les trois approches coexistent, et la question ouverte du déplacement architectural reste, pour l'heure, un argumentaire de papiers concurrents plus qu'un résultat de banc d'essai indépendant.
Une pile production existe déjà, mais sur d'autres principes
À côté de la trajectoire académique, l'écosystème production de la mémoire pour agents s'est déjà consolidé en 2025. Mem0, qui a levé 24 millions de dollars en octobre auprès de Y Combinator, Peak XV et Basis Set, revendique selon son tour de table avoir dépassé les 41 000 étoiles GitHub et les treize millions de téléchargements de son paquet Python, et figure aux côtés de Letta et Supermemory parmi les cadres adoptés par les développeurs. Ces piles, dont l'API a basculé d'environ 35 à 186 millions d'appels sur les trois premiers trimestres 2025 selon les chiffres mis en avant par Mem0, partagent avec ExpGraph la philosophie d'une mémoire externe à des modèles non modifiés, mais ne reposent pas sur un graphe auto-évolutif piloté par diffusion et apprentissage par renforcement. La distinction n'est pas anodine: la pile production cherche aujourd'hui la portabilité et la persistance entre sessions; la pile académique vise la généralisation à des tâches inconnues. Le signal observable d'ici fin 2026: la reproductibilité des gains ExpGraph hors d'ExpSuite, sur un benchmark agentique tiers, et la trajectoire des appels API de Mem0 - qui dira si la pile production a, ou non, intégré la primitive graphe auto-évolutif.
35 millions → 186 millions d'appels API en trois trimestres
La progression de Mem0 sur les neuf premiers mois de 2025 illustre la demande industrielle réelle pour les couches mémoire externes, indépendamment des débats académiques sur l'architecture optimale.
