GPT meer zelfverzekerd over moeilijke taken waar ze het vaakst fouten maken, volgens een preprint van USC/Berkeley

GPT meer zelfverzekerd over moeilijke taken waar ze het vaakst fouten maken, volgens een preprint van USC/Berkeley

In kort : GPT-modellen vertonen overmoed bij moeilijke taken, wat de betrouwbaarheid van hun vertrouwenssignalen vermindert, vooral daar waar menselijke supervisie cruciaal is volgens de AI Act.

Het vertrouwen getoond door GPT-4o, ChatGPT en GPT-o3 overtreft hun werkelijke nauwkeurigheid, en de kloof wordt groter precies bij moeilijke taken - bij gemakkelijke taken daarentegen onderschatten de modellen zichzelf. Dit hard-easy effect, gekwantificeerd in een preprint onder ACL-beoordeling die online is geplaatst op arXiv op 3 april 2026, treft direct de menselijke supervisie zoals voorzien in artikel 14(4)(b) van de AI Act: het door het model geproduceerde vertrouwenssignaal is het minst betrouwbaar daar waar de supervisor het het meest nodig heeft. De auteurs - Noam Michael, Daniel BenShushan, Jacob Bien en Don A. Moore, USC Marshall School of Business en UC Berkeley Haas School of Business - rapporteren een vooraf geregistreerd protocol, hypothesen en methodologie die zijn verklaard vóór de gegevensverzameling, wat de empirische reikwijdte van het resultaat binnen de geteste omvang (GPT-4o, ChatGPT en GPT-o3) versterkt.

Het vertrouwenssignaal is het minst betrouwbaar daar waar de supervisor het het meest nodig heeft.

Hard-easy effect gemeten op GPT-4o, ChatGPT en GPT-o3 via LifeEval - vooraf geregistreerd protocol, arXiv:2605.23909, v1 van 3 april 2026

De LifeEval-benchmark en het gekwantificeerde hard-easy effect

Om dit resultaat te produceren, hebben de auteurs een eigen testbank, LifeEval, ontwikkeld, gepresenteerd (vrije vertaling) als een test ontworpen om de kalibratie van modellen te evalueren over verschillende moeilijkheidsniveaus. Over het hele spel is de gemiddelde maximaal haalbare score (Mean Accuracy Score) 56,80%. Vier statistieken worden gerapporteerd: Mean Score, Expected Calibration Error (ECE), Mean Confidence en een regressiecoëfficiënt die moeilijkheid en overmoed verbindt. Deze laatste coëfficiënt draagt de empirische signatuur van het hard-easy effect: de overmoed is het sterkst bij moeilijke tests, terwijl gemakkelijke tests tot een substantiële onderconfidence leiden. De co-auteur die garant staat voor de psychologische verankering is Don A. Moore, professor aan de Haas School of Business en houder van de Lorraine Tyson Mitchell Chair in Leadership and Communication, een referentieauteur over het onderwerp («The Trouble With Overconfidence»Psychological Review, 2008). Een methodologische reserve blijft bestaan: de vergelijking met menselijke bias - de formule «like people» gebruikt in het abstract - berust op een analogie waarvan de vergelijkende methodologie op dit moment niet is gespecificeerd. De transpositie van het menselijke hard-easy effect naar LLM blijft ook ter discussie staan: Juslin, Winman en Olsson (Psychological Review, 2000) hebben aangetoond dat het effect bij mensen vrijwel volledig verdwijnt zodra de selectieartefacten van de items worden gecontroleerd, en de vraag of het waargenomen mechanisme aan de modelzijde analoog is of op andere oorzaken berust, blijft open.

Omvang niet extrapoleren

De arXiv-paper:2605.23909 is een preprint onder ACL-beoordeling (v1, 3 april 2026): resultaten nog niet gevalideerd door een beoordelingscommissie. LifeEval omvat GPT-4o, ChatGPT en GPT-o3 - de conclusies zijn niet mechanisch van toepassing op andere modelgroepen. Het vooraf geregistreerde protocol versterkt de interne reikwijdte, maar vergroot de externe dekking niet. Het intense tempo van productiereleases van opeenvolgende versies dwingt echter tot relativering van de bevindingen.

Een convergerende bundeling van resultaten 2026

De USC/Berkeley-paper komt niet geïsoleerd. Drie andere recente studies documenteren dezelfde miscalibratie, op verschillende gebieden. Sudipta Ghosh en Mrityunjoy Panday (Cognizant) hebben in februari 2026 een empirische studie van het «Dunning-Kruger effect» in de LLM gepubliceerd die 24.000 proeven over vier modellen bestrijkt. Kimi K2 vertoont een Expected Calibration Error van 0,726 met een nauwkeurigheid van slechts 23,3%, terwijl Claude Haiku 4.5 de beste gemeten kalibratie bereikt (ECE 0,122) bij 75,4% nauwkeurigheid. De minst presterende modellen zijn het meest overmoedig. In de medische sector heeft npj Gut and Liver, een tijdschrift van het Nature-portefeuille, op 5 februari 2026 een evaluatie gepubliceerd die 48 LLM testte op 300 vragen over gastro-enterologie: ongeacht het nauwkeurigheidsniveau schatten alle modellen hun eigen zekerheid slecht in. Een Johns Hopkins / MIT / Microsoft Healthcare-team zet deze bevinding voort in visuele reacties op medische vragen (VQA, visuele vraagbeantwoording) (arXiv:2604.02543): de modellen handhaven een hoog vertrouwen, zelfs wanneer ze hallucinaties produceren. Het patroon is nu gedocumenteerd over vier onafhankelijke methodologische families.

Verband met artikel 14(4)(b) van de AI Act

De Europese kalender geeft deze bundeling van resultaten een gedateerde operationele reikwijdte. Artikel 14 van de AI Act, waarvan de toepassing oorspronkelijk gepland was voor 2 augustus 2026, is uitgesteld tot 2 december 2027 door de voorlopige politieke overeenkomst Digital Omnibus on AI van 7 mei 2026 - onder voorbehoud van formele goedkeuring door de medewetgevers. Zijn alinea (4)(b) vereist dat natuurlijke personen die verantwoordelijk zijn voor de menselijke supervisie van een hoogrisico-AI-systeem in staat zijn bewust te blijven van de neiging om automatisch te vertrouwen of te veel te vertrouwen op de output die door het systeem wordt gegenereerd («automatiseringsbias»), met name voor systemen die worden gebruikt om informatie of aanbevelingen te verstrekken voor beslissingen door natuurlijke personen (vrije vertaling). De mechanische link met het hard-easy effect is direct: het vertrouwen van de modellen piekt precies op de gevallen waar ze het meest fout zitten, dat wil zeggen het gebied waar de menselijke supervisor het minst betrouwbare signaal heeft om een fout te detecteren. Een technische oplossing is gedocumenteerd - THERMOMETER (Shen et al., MIT/IBM, ICML 2024) biedt een post-hoc multi-task kalibratie, maar de verplichting van artikel 14(4)(b) blijft een organisatorische eis die op de implementator rust, onafhankelijk van de kalibratievoortgang aan de modelzijde. Voor een Europese B2B-koper die een LLM gebruikt ter ondersteuning van medische besluitvorming, werving of kredietbeoordeling - toepassingen die vallen onder Bijlage III van de verordening - verschuift het selectiecriterium: het is niet langer voldoende om de weergegeven nauwkeurigheden te vergelijken, het systeem en de interface moeten de menselijke supervisor in staat stellen het door het model geproduceerde vertrouwen te moduleren.