Ein auf arXiv am 29. Mai 2026 veröffentlichter Preprint mit dem Namen ExpGraph argumentiert, dass ein auf einem großen Sprachmodell basierender Agent wiederverwendbare Erfahrungen sammeln kann, ohne dass irgendein Parameter des ausführenden Modells geändert werden muss - dieses bleibt eingefroren und austauschbar. Die These verschiebt die Frage des KI-Budgets: in ein leistungsfähigeres Modell investieren oder in eine tragbare externe Speicherschicht, die von einem Ausführer zum anderen wandert? Der Rahmen wird von elf Forschern der Universität von Illinois in Urbana-Champaign, der Nanyang Technological University und Meta Monetization AI unterzeichnet. Das Papier, das unter der Kategorie Sprachverarbeitung (cs.CL auf arXiv) eingestuft ist, wurde zum Zeitpunkt der Veröffentlichung nicht von Fachkollegen begutachtet; die Ergebnisse werden von den Autoren erklärt.
Graphenverbreitung und RL-Co-Pilot: Der Mechanismus von ExpGraph
ExpGraph fasst die historischen Trajektorien eines Agenten in wiederverwendbaren Fähigkeiten und Lektionen aus Misserfolgen zusammen, die er als Knoten in einem sich selbst-evolvierenden Erfahrungsgrafen organisiert. Die Wiederherstellung kombiniert eine Graphenverbreitung und eine Nutzenbewertung; ein leichter Co-Pilot, der durch verstärkendes Lernen (RL) trainiert ist, wählt die Erfahrungen aus, die eingefügt werden sollen, mit dem Leistungsunterschied des Ausführers mit und ohne wiederhergestellte Erfahrung als Belohnungssignal. Die Anwesenheit von Jiaxuan You, einem anerkannten Experten für neuronale Netzwerke auf Graphen (GraphSAGE, Open Graph Benchmark), unter den Autoren ist ein Zeichen für technische Glaubwürdigkeit der Graphenverbreitungskomponente des Rahmens. Empirisch geben die Autoren im Preprint Leistungssteigerungen von 12,2 % und 4,7 % bei statischen Aufgaben je nach Größe des Ausführers und von 21,4 % und 12,7 % in agentischen Umgebungen wie ALFWorld an, einer standardisierten Bewertungsumgebung für Agenten (die Details zu anderen Umgebungen sind aus dem Abstract nicht zugänglich). Die Bewertung basiert jedoch auf ExpSuite, einem von den Autoren selbst entworfenen Benchmark, und die gewählte Basis ist im Abstract nicht benannt - zwei Punkte, die nur durch das vollständige Papier geklärt werden können.
Hausgemachter Benchmark, unbenannte Basis
Die von ExpGraph beanspruchten Leistungssteigerungen werden auf ExpSuite gemessen, einem von den Autoren des Papiers entworfenen Bewertungsprotokoll. Die Vergleichsbasis ist im Preprint nicht benannt. Diese Ergebnisse sind noch nicht durch eine Peer-Review gegangen - mit Vorsicht zu genießen, bevor sie verallgemeinert werden.
Eine aktive akademische Linie, bereits durch Peer-Review gegangen
ExpGraph reiht sich in eine Linie von Arbeiten zum erfahrungsbasierten Lernen von LLM-Agenten ein, von denen mehrere bereits den Peer-Review-Prozess durchlaufen haben. Zwei auf der ICLR 2026 akzeptierte Papiere - eine der drei großen internationalen Konferenzen für maschinelles Lernen - sind besonders vergleichbar. NAVER LABS Europe in Meylan veröffentlichte dort Retrieval-Augmented LLM Agents: Learning to Learn from Experience, das postuliert, dass „eine robuste Generalisierung auf unbekannte Aufgaben bleibt eine große Herausforderung“ (freie Übersetzung) für generische Agenten. Die gleiche Konferenz akzeptierte From Experience to Strategy, das „einen mehrschichtigen, trainierbaren, agentenzentrierten Graphenspeicherrahmen“ (freie Übersetzung) in Verbindung mit einer durch Belohnung geleiteten Gewichtungsoptimierung vorschlägt. Der Übergang von der flachen Liste von Erfahrungen - ein historisch mit früheren Rahmenwerken assoziiertes Paradigma, darunter ExpeL (AAAI 2024) - zu einer Graphenstruktur ist also nicht neu; es wurde bereits implementiert und durch akademische Rezensionen validiert. Der Raum ist nicht unbesetzt: ExpGraph fügt sich als Variante hinzu, nicht als Bruch, und ist bisher der einzige der drei, der keine externe Validierung erhalten hat.
Drei zeitgenössische Papiere zur agentischen Erinnerung
| Papier | Institution | Status | Speicheransatz |
|---|---|---|---|
| Retrieval-Augmented LLM Agents | NAVER LABS Europe | ICLR 2026 - peer-reviewed | Erfahrungsbasiertes RAG |
| From Experience to Strategy | Unbekannt | ICLR 2026 - peer-reviewed | Trainierbarer Graphenspeicher (RL) |
| ExpGraph | UIUC + NTU + Meta Monetization AI | arXiv Preprint - nicht peer-reviewed | Strukturierter Erfahrungsgraf |
Externer Speicher oder fähigeres Modell: zwei Wetten, die nicht dasselbe sagen
Der Vorschlag von ExpGraph, von dem Team UIUC, NTU und Meta Monetization AI unterzeichnet, enthält eine von seinen Autoren beanspruchte architektonische These: das Feinabstimmen auf gesammelte Erfahrungen verbessert zwar die Wiederverwendbarkeit, wird aber unflexibel, sobald ein leistungsfähigerer oder besser angepasster Ausführer auftaucht. Die im Preprint verteidigte Konsequenz ist, dass das gesammelte Wissen außerhalb des Modells existieren muss, um tragbar zu bleiben, wenn sich das Modell ändert. Die Trajektorie von Anthropic illustriert die gegenteilige Wette: das Modell zu stärken, damit die agentischen Gewinne mit ihm reisen - von Claude-Agenten optimiert für die Programmierung bis zu Claude Opus 4.8, das am 28. Mai 2026 angekündigt wurde, mit einer angenommenen Grenze: Diese Gewinne überleben den Modellwechsel nicht. Eine dritte, randständiger Variante verlagert den Schwerpunkt noch weiter zu selbstverbessernden Modellarchitekturen, die sich noch im explorativen Stadium in industriellen Laboren befinden. Keine veröffentlichte empirische Arbeit entscheidet heute den Streit: Die drei Ansätze koexistieren, und die offene Frage der architektonischen Verschiebung bleibt vorerst ein Argumentationspunkt konkurrierender Papiere mehr als ein Ergebnis eines unabhängigen Testfelds.
Ein Produktionsstack existiert bereits, aber nach anderen Prinzipien
Neben der akademischen Trajektorie hat sich das Produktionsökosystem für die Agentenspeicherung bereits 2025 konsolidiert. Mem0, das im Oktober 24 Millionen Dollar von Y Combinator, Peak XV und Basis Set aufgebracht hat, beansprucht gemäß seiner Finanzierungsrunde, mehr als 41.000 GitHub-Sterne und dreizehn Millionen Downloads seines Python-Pakets überschritten zu haben, und gehört neben Letta und Supermemory zu den von Entwicklern angenommenen Rahmenwerken. Diese Stacks, deren API laut den von Mem0 hervorgehobenen Zahlen in den ersten drei Quartalen 2025 von etwa 35 auf 186 Millionen Aufrufe umgestellt wurde, teilen mit ExpGraph die Philosophie eines externen Speichers für unveränderte Modelle, basieren jedoch nicht auf einem selbst-evolvierenden, durch Verbreitung und verstärkendes Lernen gesteuerten Graphen. Der Unterschied ist nicht unbedeutend: Der Produktionsstack strebt heute Portabilität und Persistenz zwischen den Sitzungen an; der akademische Stack zielt auf die Generalisierung auf unbekannte Aufgaben. Das bis Ende 2026 beobachtbare Signal: die Reproduzierbarkeit der ExpGraph-Gewinne außerhalb von ExpSuite, auf einem agentischen Drittanbieter-Benchmark, und die Trajektorie der API-Aufrufe von Mem0 - die zeigen wird, ob der Produktionsstack das selbst-evolvierende Graphen-Primitive integriert hat oder nicht.
35 Millionen → 186 Millionen API-Aufrufe in drei Quartalen
Der Fortschritt von Mem0 in den ersten neun Monaten des Jahres 2025 zeigt die tatsächliche industrielle Nachfrage nach externen Speicherschichten, unabhängig von akademischen Debatten über die optimale Architektur.
