ورقة بحثية غير مراجعة نُشرت على arXiv في 29 مايو 2026، بعنوان ExpGraph، تدافع عن أن الوكلاء المعتمدين على النماذج اللغوية الكبيرة يمكنهم تراكم الخبرة القابلة لإعادة الاستخدام دون تعديل أي من معلمات النموذج التنفيذي - حيث يبقى هذا النموذج ثابتًا وقابلًا للتبادل. تنقل الأطروحة مسألة ميزانية الذكاء الاصطناعي: هل يجب الاستثمار في نموذج أقوى، أم في طبقة ذاكرة خارجية محمولة تنتقل من نموذج تنفيذي لآخر؟ الإطار موقّع من قبل أحد عشر باحثًا متصلين بجامعة إلينوي في أوربانا-شامبين، جامعة نانيانغ التكنولوجية وMeta Monetization AI. الورقة مصنفة ضمن معالجة اللغة الطبيعية (cs.CL على arXiv)، ولم تُخضع لمراجعة الأقران في تاريخ نشرها؛ النتائج مُعلنة من قبل المؤلفين.
نشر الرسوم البيانية والمساعد RL: آلية ExpGraph
تُلخّص ExpGraph المسارات التاريخية لوكيل في مهارات قابلة لإعادة الاستخدام ودروس من الفشل، حيث تنظمها كنقاط في رسم بياني للخبرة ذاتية التطور. تجمع عملية الاسترجاع بين نشر الرسوم البيانية وترتيبها حسب الفائدة؛ مساعد خفيف مدرّب باستخدام التعلم المعزز (RL) يختار التجارب التي يجب حقنها، مع إشارة المكافأة تكون الفارق في أداء النموذج التنفيذي مع وبدون التجربة المسترجعة. وجود Jiaxuan You، أحد الخبراء المعترف بهم في شبكات الرسوم البيانية العصبية (GraphSAGE, Open Graph Benchmark)، بين المؤلفين يمثل إشارة للاعتمادية التقنية لمكون نشر الرسوم البيانية في الإطار. من الناحية التجريبية، يعلن المؤلفون في الورقة عن مكاسب بنسبة 12.2٪ و4.7٪ في المهام الثابتة حسب حجم النموذج التنفيذي، و21.4٪ و12.7٪ في البيئات الوكالية التي تشمل ALFWorld، وهو بيئة محاكاة منزلية أصبحت معيارًا لتقييم الوكلاء (تفاصيل البيئات الأخرى غير متاحة من الملخص). يعتمد التقييم مع ذلك على ExpSuite، وهو معيار تم تصميمه من قبل مؤلفي الورقة أنفسهم، ولم يتم تسمية الأساس الذي تم الاعتماد عليه في الملخص - وهي نقطتان لا يمكن تبيانهما إلا بقراءة الورقة كاملة.
معيار داخلي، أساس غير مسمى
تُقاس المكاسب في الأداء التي تدعيها ExpGraph على ExpSuite، بروتوكول تقييم صممه مؤلفو الورقة. لم يُذكر الأساس للمقارنة في الورقة غير المراجعة. هذه النتائج لم تمر بعد بمرحلة مراجعة الأقران - قد تتطلب الحذر قبل التعميم.
سلالة أكاديمية نشطة، وقد اجتازت بالفعل مراجعة الأقران
تندرج ExpGraph في سلالة من الأعمال حول التعلم التجريبي للوكلاء المعتمدين على LLM، وقد اجتاز العديد منها بالفعل مرحلة مراجعة الأقران. قُبلت ورقتان في ICLR 2026 - واحدة من ثلاث مؤتمرات دولية كبرى في تعلم الآلة - وهما قابلة للمقارنة بشكل خاص. نشرت NAVER LABS Europe في Retrieval-Augmented LLM Agents: Learning to Learn from Experience، التي تطرح أن "الوصول إلى تعميم قوي للمهام غير المعروفة يظل تحديًا رئيسيًا" (ترجمة حرة) للوكلاء العامين. قبل نفس المؤتمر From Experience to Strategy، الذي يقترح "إطار ذاكرة بيانية متعددة الطبقات، قابلة للتدريب، تركز على الوكيل" (ترجمة حرة) مقترنة بتحسين الأوزان الموجهة بالمكافأة. الانتقال من قائمة مسطحة من التجارب - وهي نموذج مرتبط تاريخيًا بالأطر السابقة، بما في ذلك ExpeL (AAAI 2024) - إلى هيكل بياني ليس جديدًا؛ لقد تم تفعيله بالفعل وصُدقت عليه بمراجعات أكاديمية. الفضاء ليس فارغًا: تنضم ExpGraph كنوع، وليس كاختراق، ولا يزال في الوقت الراهن الوحيد من بين الثلاثة الذي لم يتلقَ التحقق الخارجي.
ثلاث أوراق معاصرة حول ذاكرة الوكلاء
| الورقة | المؤسسة | الحالة | نهج الذاكرة |
|---|---|---|---|
| Retrieval-Augmented LLM Agents | NAVER LABS Europe | ICLR 2026 - مُراجعة الأقران | RAG تجريبي |
| From Experience to Strategy | غير مذكور | ICLR 2026 - مُراجعة الأقران | ذاكرة بيانية قابلة للتدريب (RL) |
| ExpGraph | UIUC + NTU + Meta Monetization AI | arXiv ورقة غير مُراجعة | رسم بياني للتجارب المنظمة |
ذاكرة خارجية أم نموذج أكثر قدرة: رهانان لا يقولان نفس الشيء
تحتوي اقتراح ExpGraph، الموقع من قبل فريق UIUC، NTU وMeta Monetization AI، على أطروحة معمارية يدعيها مؤلفوها: التعديل الدقيق على التجارب المجمعة يُحسن بالتأكيد من إعادة الاستخدام، لكنه يصبح غير مرن حالما يظهر نموذج تنفيذي أقوى أو أكثر ملاءمة. النتيجة التي يدافع عنها في الورقة غير المراجعة، هي أن المعرفة المتراكمة يجب أن تعيش خارج النموذج لتظل محمولة عندما يتغير النموذج. مسار Anthropic يُظهر الرهان المعاكس: تقوية النموذج بحيث تسافر المكاسب الوكالية معه - من الوكلاء كلود المُحسَّنون للبرمجة حتى Claude Opus 4.8 المعلن عنه في 28 مايو 2026، مع حد مُفترض: هذه المكاسب لا تبقى بعد استبدال النموذج. نوع ثالث، أكثر هامشية، ينقل مركز الجاذبية إلى معماريات التحسين الذاتي للنماذج، والتي لا تزال في مرحلة استكشافية داخل المختبرات الصناعية. لا يوجد عمل تجريبي منشور حتى الآن يفصل في الخلاف: تتعايش الأساليب الثلاثة، والسؤال المفتوح حول التحول المعماري لا يزال، في الوقت الحالي، جدالاً في الأوراق المتنافسة أكثر من كونه نتيجة لاختبار مستقل.
حزمة إنتاج موجودة بالفعل، ولكن على مبادئ أخرى
بجانب المسار الأكاديمي، يتكون نظام إنتاج الذاكرة للوكلاء بالفعل في عام 2025. Mem0، الذي جمع 24 مليون دولار في أكتوبر من Y Combinator, Peak XV وBasis Set، يدعي وفقًا لجولة الاستثمار أن لديه أكثر من 41,000 نجمة على GitHub وثلاثة عشر مليون تحميل لحزمة Python الخاصة به، ويظهر جنبًا إلى جنب مع Letta وSupermemory بين الأطر المعتمدة من قبل المطورين. هذه الحزم، التي انتقلت واجهة برمجة التطبيقات الخاصة بها من حوالي 35 إلى 186 مليون مكالمة في الأرباع الثلاثة الأولى من 2025 وفقًا للأرقام التي أبرزتها Mem0، تشترك مع ExpGraph في فلسفة ذاكرة خارجية للنماذج غير المعدلة، لكنها لا تعتمد على رسم بياني ذاتي التطور مدفوع بالنشر والتعلم المعزز. التفرقة ليست عابرة: حزمة الإنتاج تسعى اليوم إلى قابلية النقل والاستمرار بين الجلسات؛ الحزمة الأكاديمية تهدف إلى التعميم على المهام غير المعروفة. الإشارة القابلة للملاحظة بحلول نهاية 2026: قابلية تكرار المكاسب التي تحققها ExpGraph خارج ExpSuite، على معيار وكيل طرف ثالث، ومسار مكالمات واجهة برمجة التطبيقات الخاصة بـ Mem0 - الذي سيحدد ما إذا كانت حزمة الإنتاج قد دمجت أم لا البدائية البيانية ذاتية التطور.
35 مليون → 186 مليون مكالمة واجهة برمجة التطبيقات في ثلاثة أرباع
التقدم الذي أحرزته Mem0 في الأشهر التسعة الأولى من عام 2025 يوضح الطلب الصناعي الحقيقي على طبقات الذاكرة الخارجية، بغض النظر عن النقاشات الأكاديمية حول الهندسة المثلى.
