Un preprint depositato su arXiv il 29 maggio 2026, chiamato ExpGraph, sostiene che un agente basato su un grande modello di linguaggio può accumulare esperienza riutilizzabile senza che alcun parametro del modello esecutore venga modificato - quest'ultimo rimane congelato e intercambiabile. La tesi sposta la questione del budget IA: investire in un modello più potente o in uno strato di memoria esterno portatile che viaggia da un esecutore all'altro? Il quadro è firmato da undici ricercatori affiliati all'università dell'Illinois a Urbana-Champaign, alla Nanyang Technological University e a Meta Monetization AI. Il documento, classificato in trattamento automatico del linguaggio (cs.CL su arXiv), non è stato sottoposto a revisione paritaria alla data della sua pubblicazione; i suoi risultati sono dichiarati dagli autori.
Diffusione del grafico e copilota RL: il meccanismo di ExpGraph
ExpGraph riassume le traiettorie storiche di un agente in competenze riutilizzabili e lezioni di fallimento, che organizza come nodi in un grafo di esperienza auto-evolutivo. Il recupero combina una diffusione del grafo e un ranking per utilità; un copilota leggero addestrato tramite apprendimento per rinforzo (RL) seleziona le esperienze da iniettare, con il segnale di ricompensa determinato dalla differenza di performance dell'esecutore con e senza esperienza recuperata. La presenza tra gli autori di Jiaxuan You, specialista riconosciuto delle reti neurali su grafi (GraphSAGE, Open Graph Benchmark), è un segnale di credibilità tecnica per la componente di diffusione del grafico del quadro. Sul piano empirico, gli autori dichiarano nel preprint dei guadagni del 12,2% e del 4,7% su compiti statici a seconda della dimensione dell'esecutore, e del 21,4% e del 12,7% in ambienti agentici tra cui ALFWorld, ambiente di simulazione domestica divenuto standard di valutazione per agenti (il dettaglio degli altri ambienti non è accessibile dall'abstract). La valutazione si basa tuttavia su ExpSuite, un benchmark concepito dagli stessi autori, e il baseline scelto non è nominato nell'abstract - due pezzi che solo la lettura del documento completo potrà inquadrare.
Benchmark interno, baseline non nominato
I guadagni di performance rivendicati da ExpGraph sono misurati su ExpSuite, un protocollo di valutazione concepito dagli autori del documento. Il baseline di confronto non è nominato nel preprint. Questi risultati non sono ancora passati attraverso una revisione paritaria - da maneggiare con cautela prima di qualsiasi generalizzazione.
Una linea accademica attiva, e già passata per la revisione paritaria
ExpGraph si inserisce in una linea di lavori sull'apprendimento esperienziale degli agenti LLM, di cui diversi hanno già superato il traguardo della peer review. Due documenti accettati a ICLR 2026 - una delle tre grandi conferenze internazionali di apprendimento automatico - sono particolarmente comparabili. NAVER LABS Europe, a Meylan, ha pubblicato Retrieval-Augmented LLM Agents: Learning to Learn from Experience, che sostiene che "raggiungere una generalizzazione robusta a compiti sconosciuti rimane una grande sfida" (traduzione libera) per gli agenti generalisti. La stessa conferenza ha accettato From Experience to Strategy, che propone "un quadro di memoria grafica multi-strato, addestrabile, centrato sull'agente" (traduzione libera) accoppiato a un'ottimizzazione dei pesi guidata da ricompensa. Il passaggio dalla lista piatta di esperienze - paradigma storicamente associato ai quadri precedenti, tra cui ExpeL (AAAI 2024) - verso una struttura grafica non è quindi inedito; è già stato strumentato e validato da revisioni accademiche. Lo spazio non è vergine: ExpGraph si aggiunge come variante, non come rottura, e rimane per ora l'unico dei tre a non aver ricevuto una validazione esterna.
Tre documenti contemporanei sulla memoria agente
| Documento | Istituzione | Stato | Approccio memoria |
|---|---|---|---|
| Retrieval-Augmented LLM Agents | NAVER LABS Europe | ICLR 2026 - peer-reviewed | RAG esperienziale |
| From Experience to Strategy | Non specificato | ICLR 2026 - peer-reviewed | Grafico memoria addestrabile (RL) |
| ExpGraph | UIUC + NTU + Meta Monetization AI | arXiv preprint - non peer-reviewed | Grafico di esperienze strutturate |
Memoria esterna o modello più capace: due scommesse che non dicono la stessa cosa
La proposta di ExpGraph, firmata dal team UIUC, NTU e Meta Monetization AI, contiene una tesi architetturale rivendicata dai suoi autori: il fine-tuning su esperienze raccolte migliora certo il riutilizzo, ma diventa inflessibile non appena emerge un esecutore più potente o meglio adattato. La conseguenza, difesa nel preprint, è che la conoscenza accumulata deve vivere fuori dal modello per rimanere portatile quando il modello cambia. La traiettoria di Anthropic illustra la scommessa inversa: potenziare il modello affinché i guadagni agentici viaggino con lui - dagli agenti Claude ottimizzati per la programmazione fino a Claude Opus 4.8 annunciato il 28 maggio 2026, con un limite assunto: questi guadagni non sopravvivono alla sostituzione del modello. Una terza variante, più marginale, sposta ancora il centro di gravità verso architetture di auto-miglioramento dei modelli, ancora allo stadio esplorativo nei laboratori industriali. Nessun lavoro empirico pubblicato risolve oggi la controversia: le tre approcci coesistono, e la questione aperta dello spostamento architetturale rimane, per ora, un'argomentazione di documenti concorrenti più che un risultato di prova indipendente.
Una pila di produzione esiste già, ma su altri principi
Accanto alla traiettoria accademica, l'ecosistema di produzione della memoria per agenti si è già consolidato nel 2025. Mem0, che ha raccolto 24 milioni di dollari in ottobre presso Y Combinator, Peak XV e Basis Set, rivendica secondo il suo tavolo di raccolta fondi di aver superato le 41.000 stelle GitHub e i tredici milioni di download del suo pacchetto Python, e figura accanto a Letta e Supermemory tra i quadri adottati dagli sviluppatori. Queste pile, la cui API è passata da circa 35 a 186 milioni di chiamate nei primi tre trimestri del 2025 secondo i dati messi in evidenza da Mem0, condividono con ExpGraph la filosofia di una memoria esterna a modelli non modificati, ma non si basano su un grafo auto-evolutivo pilotato da diffusione e apprendimento per rinforzo. La distinzione non è banale: la pila di produzione cerca oggi la portabilità e la persistenza tra sessioni; la pila accademica mira alla generalizzazione a compiti sconosciuti. Il segnale osservabile entro la fine del 2026: la riproducibilità dei guadagni ExpGraph fuori da ExpSuite, su un benchmark agentico terzo, e la traiettoria delle chiamate API di Mem0 - che dirà se la pila di produzione ha, o meno, integrato la primitiva grafo auto-evolutivo.
35 milioni → 186 milioni di chiamate API in tre trimestri
La progressione di Mem0 nei primi nove mesi del 2025 illustra la domanda industriale reale per le layer di memoria esterne, indipendentemente dai dibattiti accademici sull'architettura ottimale.
