GPT أكثر ثقة في المهام الصعبة حيث يرتكب أكبر الأخطاء، وفقًا لبحث من USC/Berkeley

الثقة التي يظهرها GPT-4o، ChatGPT وGPT-o3 تتجاوز دقتهم الفعلية، والفجوة تتسع تحديدًا في المهام الصعبة - على عكس ذلك، في المهام السهلة، تقلل النماذج من تقدير ذاتها. هذا التأثير الصعب-السهل موثق في بحث أولي تحت المراجعة من قبل ACL نشر على arXiv في 3 أبريل 2026 يؤثر مباشرة على الإشراف البشري المتوقع في المادة 14(4)(b) من AI Act: إشارة الثقة التي ينتجها النموذج هي الأقل موثوقية حيث يحتاج المشرف إليها بشكل أكبر. المؤلفون - نوام مايكل، دانيال بنشوشان، جيكوب بين ودون أ. مور، من USC Marshall School of Business وUC Berkeley Haas School of Business - يعرضون بروتوكولاً مسجلاً مسبقًا، فرضيات ومنهجية مصرح بها قبل جمع البيانات، مما يعزز الأثر التجريبي للنتيجة على النطاق المختبر (GPT-4o، ChatGPT وGPT-o3).

إشارة الثقة هي الأقل موثوقية حيث يحتاج المشرف إليها بشكل أكبر.

تأثير الصعب-السهل مقاس على GPT-4o، ChatGPT وGPT-o3 عبر LifeEval - بروتوكول مسجل مسبقًا، arXiv:2605.23909، v1 في 3 أبريل 2026

المعيار LifeEval وتأثير الصعب-السهل المقاس

لإنتاج هذه النتيجة، قام المؤلفون ببناء معيار خاص، LifeEval، موصوف (ترجمة حرة) باعتباره اختبارًا مصممًا لتقييم ضبط النماذج عبر مستويات مختلفة من الصعوبة. في مجموعة الاختبار، يبلغ الحد الأقصى لمتوسط النقاط الممكنة (Mean Accuracy Score) 56.80%. تُقدم أربع مقاييس: Mean Score، Expected Calibration Error (ECE)، Mean Confidence، ومعامل الارتباط بين الصعوبة والثقة الزائدة. يحمل هذا المعامل التوقيع التجريبي لتأثير الصعب-السهل: الثقة الزائدة تكون أقوى في الاختبارات الصعبة، بينما الاختبارات السهلة تؤدي إلى نقص كبير في الثقة. الضامن المشارك للأساس النفسي هو دون أ. مور، أستاذ في Haas School of Business وصاحب كرسي لورين تايسون ميتشل في القيادة والاتصال، مؤلف مرجعي في الموضوع («The Trouble With Overconfidence»، Psychological Review، 2008). تُبقى هناك تحفظات منهجية: المقارنة مع التحيز البشري - صيغة «like people» المستخدمة في الملخص - تقوم على تشبيه لم تُحدد منهجيته المقارنة في هذه المرحلة. تظل تحويل التأثير الصعب-السهل البشري إلى النماذج اللغوية الكبيرة موضوع نقاش: أظهر جوسلين، وينمان وأولسون (Psychological Review، 2000) أن التأثير يختفي تقريبًا لدى البشر بمجرد التحكم في عناصر اختيار العناصر، وما إذا كان الآلية الملاحظة في الجانب النموذجية مشابهة أو تعتمد على أسباب أخرى يظل سؤالاً مفتوحًا.

نطاق لا ينبغي تعميمه

الورقة arXiv:2605.23909 هي بحث أولي تحت المراجعة من قبل ACL (v1، 3 أبريل 2026): نتائج لم تُحقق بعد من قبل لجنة القراءة. LifeEval يغطي GPT-4o، ChatGPT وGPT-o3 - لا تنطبق الاستنتاجات ميكانيكيًا على عائلات أخرى من النماذج. البروتوكول المسجل مسبقًا يعزز النطاق الداخلي، لكنه لا يوسع التغطية الخارجية. ومع ذلك، يجبر الإيقاع السريع لإنتاج الإصدارات المتعاقبة على إعادة النظر في النتيجة.

مجموعة متوافقة من النتائج لعام 2026

الورقة USC/Berkeley لا تأتي معزولة. توثق ثلاث دراسات أخرى حديثة نفس الخطأ في الضبط، على نطاقات متميزة. نشر سوديبتا غوش ومريتيونجوي بانداي (Cognizant) في فبراير 2026 دراسة تجريبية لتأثير «Dunning-Kruger effect» في النماذج اللغوية الكبيرة تغطي 24000 تجربة على أربعة نماذج. يظهر Kimi K2 خطأ ضبط متوقع 0.726 لدقة تبلغ فقط 23.3%، بينما يحقق Claude Haiku 4.5 أفضل ضبط مقاس (ECE 0.122) عند دقة 75.4%. النماذج الأقل أداءً تكون الأكثر ثقة زائدة. في المجال الطبي، npj Gut and Liver، مجلة من محفظة Nature، نشرت في 5 فبراير 2026 تقييمًا يشمل 48 نموذجًا لغويًا كبيرًا تم اختبارهم على 300 سؤال في مجال أمراض الجهاز الهضمي: بغض النظر عن مستوى الدقة، جميع النماذج تظهر تقديرًا سيئًا ليقينها الذاتي. فريق Johns Hopkins / MIT / Microsoft Healthcare يمد هذا النتيجة في الاستجابة البصرية للأسئلة الطبية (VQA, visual question answering) (arXiv:2604.02543): تحافظ النماذج على ثقة عالية حتى عند إنتاجها هلوسات. يُوثق النمط الآن في أربع عائلات منهجية مستقلة.

التنسيق مع المادة 14(4)(b) من AI Act

يعطي الجدول الزمني الأوروبي لهذه المجموعة من النتائج نطاقًا عمليًا مؤرخًا. المادة 14 من AI Act، التي كان من المقرر أن تطبق في الأصل في 2 أغسطس 2026، ترى دخولها حيز التنفيذ مؤجلًا إلى 2 ديسمبر 2027 باتفاق السياسة المؤقتة Digital Omnibus on AI في 7 مايو 2026 - بشرط الاعتماد الرسمي من قبل المشرعين المشاركين. يفرض فقرتها (4)(b) أن يكون الأفراد المسؤولون عن الإشراف البشري على نظام ذكاء اصطناعي عالي المخاطر قادرين على البقاء على دراية بالميل إلى الاعتماد أو الاعتماد المفرط تلقائيًا على المخرجات التي ينتجها النظام (التحيز التلقائي)، خاصة بالنسبة للأنظمة المستخدمة لتقديم معلومات أو توصيات لاتخاذ قرارات من قبل الأفراد (ترجمة حرة). الارتباط الميكانيكي مع تأثير الصعب-السهل مباشر: تبلغ ثقة النماذج ذروتها بالضبط في الحالات التي ترتكب فيها أكبر الأخطاء، وهي المنطقة التي يكون فيها للمشرف البشري أقل إشارة موثوقة لاكتشاف خطأ. يتم توثيق حل تقني - THERMOMETER (Shen et al., MIT/IBM, ICML 2024) يقترح ضبط متعدد المهام بعد الحدث، لكن التزام المادة 14(4)(b) يظل مطلبًا تنظيميًا يلقي على عاتق الناشر، بغض النظر عن تقدم الضبط من جانب النموذج. بالنسبة لمشتري B2B أوروبي يستخدم نموذجًا لغويًا كبيرًا للمساعدة في القرارات الطبية، أو في التوظيف أو في تقييم الائتمان - استخدامات مغطاة من قبل الملحق الثالث من اللائحة -، يتحرك معيار الاختيار: لم يعد يكفي مقارنة الدقات المعلنة، بل يجب أن يتيح النظام وواجهته للمشرف البشري تعديل الثقة التي ينتجها النموذج.

Stephane Nachez

هيئة تحرير ActuIA — أخبار وبيانات وتحليلات حول الذكاء الاصطناعي لصنّاع القرار.

GPT أكثر ثقة في المهام الصعبة حيث يرتكب أكبر الأخطاء، وفقًا لبحث من USC/Berkeley

المعيار LifeEval وتأثير الصعب-السهل المقاس

مجموعة متوافقة من النتائج لعام 2026

التنسيق مع المادة 14(4)(b) من AI Act

مساعدون <span dir="ltr">GPT-5</span> ثم تُركوا وحدهم: تجربة عشوائية تقيس كلفة التعلم عبر المساعدة بالذكاء الاصطناعي

إلغاء التعلّم الآلي: Google Research تُثبت اختبار تدقيق، لكن ليس بعد على نماذج اللغة الكبيرة

الورقة البحثية ExpGraph تقترح ذاكرة ذاتية التطور باستخدام الرسوم البيانية للوكلاء المعتمدين على LLM