Preprint złożony na arXiv 29 maja 2026 r., nazwany ExpGraph, argumentuje, że agent oparty na dużym modelu językowym może gromadzić doświadczenie do ponownego wykorzystania, bez modyfikacji żadnych parametrów modelu wykonawczego - pozostaje on zamrożony i wymienny. Teza przesuwa pytanie o budżet AI: inwestować w bardziej potężny model, czy w przenośną warstwę pamięci zewnętrznej, która podróżuje z jednego wykonawcy do drugiego? Ramy te są dziełem jedenaściorga naukowców związanych z Uniwersytetem Illinois w Urbana-Champaign, Nanyang Technological University oraz Meta Monetization AI. Dokument, sklasyfikowany jako przetwarzanie języka naturalnego (cs.CL na arXiv), nie został poddany recenzji w momencie publikacji; wyniki są deklarowane przez autorów.
Dyfuzja grafu i RL Copilot: mechanizm ExpGraph
ExpGraph podsumowuje historyczne trajektorie agenta w umiejętności do ponownego wykorzystania i lekcje z niepowodzeń, które organizuje jako węzły w samoewoluującym grafie doświadczenia. Odzyskiwanie łączy dyfuzję grafu i ranking według użyteczności; lekki copilot szkolony przez wzmocnienie (RL) wybiera doświadczenia do wstrzyknięcia, z sygnałem nagrody jako różnica w wydajności wykonawcy z i bez odzyskanego doświadczenia. Obecność Jiaxuan You, uznanego specjalisty od sieci neuronowych na grafach (GraphSAGE, Open Graph Benchmark), wśród autorów, jest sygnałem wiarygodności technicznej dla komponentu dyfuzji grafu w ramach. Na poziomie empirycznym autorzy deklarują w preprincie zyski w wysokości 12,2% i 4,7% w zadaniach statycznych w zależności od wielkości wykonawcy oraz 21,4% i 12,7% w środowiskach agentowych, w tym ALFWorld, standardowym środowisku symulacyjnym do oceny agentów (szczegóły innych środowisk nie są dostępne w abstrakcie). Ocena opiera się jednak na ExpSuite, benchmarce zaprojektowanym przez samych autorów, a przyjęta baza porównawcza nie jest wymieniona w abstrakcie - dwie kwestie, które można wyjaśnić tylko przez przeczytanie pełnego artykułu.
Własny benchmark, nieznana baza porównawcza
Reklamowane przez ExpGraph zyski w wydajności są mierzone na ExpSuite, protokole oceny zaprojektowanym przez autorów artykułu. Baza porównawcza nie jest wymieniona w preprincie. Wyniki te nie przeszły jeszcze przez recenzję - do rozważenia z ostrożnością przed jakimkolwiek uogólnieniem.
Aktywna linia naukowa, już przeszła recenzję
ExpGraph wpisuje się w linię badań nad uczeniem się doświadczeń przez agentów LLM, z których kilka przeszło już recenzję. Dwa artykuły zaakceptowane na ICLR 2026 - jednej z trzech głównych międzynarodowych konferencji o uczeniu maszynowym - są szczególnie porównywalne. NAVER LABS Europe, w Meylan, opublikowało tam Retrieval-Augmented LLM Agents: Learning to Learn from Experience, który stwierdza, że „osiągnięcie solidnej generalizacji do nieznanych zadań pozostaje dużym wyzwaniem” (tłumaczenie własne) dla agentów ogólnych. Ta sama konferencja zaakceptowała From Experience to Strategy, który proponuje „wielowarstwowe, uczące się ramy pamięci grafowej, skoncentrowane na agencie” (tłumaczenie własne) połączone z optymalizacją wag prowadzoną przez nagrody. Przejście z płaskiej listy doświadczeń - paradygmatu historycznie związanego z wcześniejszymi ramami, w tym ExpeL (AAAI 2024) - do struktury grafu nie jest więc nowością; zostało już zaimplementowane i zatwierdzone przez recenzje naukowe. Przestrzeń nie jest dziewicza: ExpGraph dołącza jako wariant, nie jako przełom, i pozostaje na razie jedynym z trzech, który nie otrzymał zewnętrznej walidacji.
Trzy współczesne artykuły o pamięci agentowej
| Artykuł | Instytucja | Status | Podejście do pamięci |
|---|---|---|---|
| Retrieval-Augmented LLM Agents | NAVER LABS Europe | ICLR 2026 - recenzowany | Doświadczenie RAG |
| From Experience to Strategy | Nieokreślona | ICLR 2026 - recenzowany | Graf pamięci uczący się (RL) |
| ExpGraph | UIUC + NTU + Meta Monetization AI | arXiv preprint - nie recenzowany | Strukturalizowany graf doświadczeń |
Zewnętrzna pamięć lub bardziej zdolny model: dwa zakłady, które nie mówią tego samego
Propozycja ExpGraph, podpisana przez zespół UIUC, NTU i Meta Monetization AI, zawiera tezę architektoniczną wysuniętą przez swoich autorów: fine-tuning na zbieranych doświadczeniach poprawia co prawda ponowne użycie, ale staje się nieskuteczny, gdy pojawia się bardziej potężny lub lepiej dostosowany wykonawca. Konsekwencją, bronioną w preprincie, jest to, że zgromadzona wiedza musi żyć poza modelem, aby pozostać przenośną, gdy zmienia się model. Trajektoria Anthropic ilustruje odwrotny zakład: wzmocnienie modelu, aby zyski agentów podróżowały z nim - od agentów Claude optymalizowanych do programowania do Claude Opus 4.8 ogłoszonego 28 maja 2026 r., z założonym ograniczeniem: te zyski nie przetrwają wymiany modelu. Trzecia, bardziej marginalna odmiana, przesuwa jeszcze środek ciężkości w stronę architektur auto-ulepszających modele, nadal na etapie eksploracyjnym w laboratoriach przemysłowych. Żadne opublikowane badanie empiryczne nie rozstrzyga dzisiaj sporu: trzy podejścia współistnieją, a otwarte pytanie dotyczące przesunięcia architektonicznego pozostaje, jak dotąd, argumentem konkurencyjnych artykułów, a nie wynikiem niezależnego testu porównawczego.
Istnieje już stos produkcyjny, ale na innych zasadach
Obok trajektorii naukowej, ekosystem produkcyjny pamięci dla agentów został już skonsolidowany w 2025 roku. Mem0, który zebrał 24 miliony dolarów w październiku od Y Combinator, Peak XV i Basis Set, reklamuje według swojego rundy finansowania, że przekroczył 41 000 gwiazdek na GitHubie i trzynaście milionów pobrań swojego pakietu Python, i figuruje obok Letta i Supermemory wśród ram przyjętych przez deweloperów. Te stosy, których API przeszło z około 35 do 186 milionów wywołań w trzech pierwszych kwartałach 2025 roku według danych prezentowanych przez Mem0, dzielą z ExpGraph filozofię zewnętrznej pamięci dla niezmodyfikowanych modeli, ale nie opierają się na samoewoluującym grafie pilotowanym przez dyfuzję i wzmocnienie. Różnica nie jest bez znaczenia: stos produkcyjny poszukuje dziś przenośności i trwałości między sesjami; stos naukowy dąży do uogólnienia do nieznanych zadań. Obserwowalny sygnał do końca 2026 roku: reprodukowalność zysków ExpGraph poza ExpSuite, na zewnętrznym benchmarku agentów, oraz trajektoria wywołań API Mem0 - co pokaże, czy stos produkcyjny zintegrował, czy nie, prymityw samoewoluującego grafu.
35 milionów → 186 milionów wywołań API w trzech kwartałach
Postęp Mem0 w pierwszych dziewięciu miesiącach 2025 roku ilustruje rzeczywiste zapotrzebowanie przemysłowe na zewnętrzne warstwy pamięci, niezależnie od akademickich debat nad optymalną architekturą.
