GPT mai încrezător în sarcinile dificile unde greșește cel mai mult, conform unui preprint USC/Berkeley

Încrederea afișată de GPT-4o, ChatGPT și GPT-o3 depășește precizia lor reală, iar discrepanța se mărește exact la sarcinile dificile - pe sarcinile ușoare, dimpotrivă, modelele se subevaluează. Acest efect hard-easy cuantificat într-un preprint aflat în revizuire ACL, postat online pe arXiv pe 3 aprilie 2026 afectează direct supervizarea umană prevăzută la articolul 14(4)(b) din AI Act: semnalul de încredere produs de model este cel mai puțin fiabil acolo unde supervizorul ar avea cea mai mare nevoie. Autorii - Noam Michael, Daniel BenShushan, Jacob Bien și Don A. Moore, USC Marshall School of Business și UC Berkeley Haas School of Business - raportează un protocol preînregistrat, ipoteze și metodologie declarate înainte de colectarea datelor, ceea ce întărește relevanța empirică a rezultatului pe perimetrul testat (GPT-4o, ChatGPT și GPT-o3).

Semnalul de încredere este cel mai puțin fiabil acolo unde supervizorul ar avea cea mai mare nevoie.

Efectul hard-easy măsurat pe GPT-4o, ChatGPT și GPT-o3 prin LifeEval - protocol preînregistrat, arXiv:2605.23909, v1 din 3 aprilie 2026

Benchmark-ul LifeEval și efectul hard-easy cuantificat

Pentru a produce acest rezultat, autorii au construit un banc de test proprietar, LifeEval, prezentat (traducere liberă) ca un test conceput pentru a evalua calibrarea modelelor prin diferite nivele de dificultate. Pe întregul set de date, scorul maxim mediu atins (Mean Accuracy Score) este de 56,80 %. Patru metrici sunt raportate: Mean Score, Expected Calibration Error (ECE), Mean Confidence și un coeficient de regresie care leagă dificultatea de supraconfidență. Acest ultim coeficient poartă semnătura empirică a efectului hard-easy: supraconfidența este cea mai puternică pe testele dificile, în timp ce testele ușoare generează o subîncredere substanțială. Coautorul care garantează ancorarea psihologică este Don A. Moore, profesor la Haas School of Business și deținător al catedrei Lorraine Tyson Mitchell Chair in Leadership and Communication, autor de referință pe subiect („The Trouble With Overconfidence”, Psychological Review, 2008). O rezervă metodologică rămâne de adus: comparația cu biasul uman - formula „like people” mobilizată în abstract - se bazează pe o analogie a cărei metodologie comparativă nu este explicitată în acest stadiu. Transpunerea la LLM a efectului hard-easy uman rămâne de altfel discutată: Juslin, Winman și Olsson (Psychological Review, 2000) au arătat că efectul dispare aproape integral la oameni odată controlați artefactele de selecție a itemilor, iar întrebarea dacă mecanismul observat la model este analog sau se bazează pe alte cauze rămâne deschisă.

Perimetru de a nu extrapola

Lucrarea arXiv:2605.23909 este un preprint aflat în revizuire ACL (v1, 3 aprilie 2026): rezultate încă nevalidate de comitetul de lectură. LifeEval acoperă GPT-4o, ChatGPT și GPT-o3 - concluziile nu se aplică mecanic altor familii de modele. Protocolul preînregistrat întărește relevanța internă, dar nu extinde acoperirea externă. Ritmul intens de punere în producție a versiunilor succesive forțează totuși să relativizăm constatarea.

Un fascicul convergent de rezultate 2026

Lucrarea USC/Berkeley nu vine izolată. Alte trei lucrări recente documentează aceeași miscalibrare, pe perimetre distincte. Sudipta Ghosh și Mrityunjoy Panday (Cognizant) au publicat în februarie 2026 un studiu empiric al efectului „Dunning-Kruger” în LLM acoperind 24 000 de eseuri pe patru modele. Kimi K2 afișează un Expected Calibration Error de 0,726 pentru o precizie de doar 23,3 %, în timp ce Claude Haiku 4.5 atinge cea mai bună calibrare măsurată (ECE 0,122) la 75,4 % precizie. Modelele cele mai puțin performante sunt cele mai supraconfidente. În domeniul medical, npj Gut and Liver, revistă din portofoliul Nature, a publicat pe 5 februarie 2026 o evaluare asupra a 48 de LLM testate pe 300 de întrebări de gastroenterologie: indiferent de nivelul de precizie, toate modelele afișează o estimare proastă a propriei certitudini. O echipă Johns Hopkins / MIT / Microsoft Healthcare extinde această constatare în răspuns vizual la întrebări medicale (VQA, visual question answering) (arXiv:2604.02543): modelele mențin o încredere ridicată chiar și atunci când produc halucinații. Modelul este acum documentat pe patru familii metodologice independente.

Articularea cu articolul 14(4)(b) din AI Act

Calendarul european conferă acestui fascicul de rezultate o relevanță operațională datată. Articolul 14 din AI Act, a cărui aplicare era inițial prevăzută pentru 2 august 2026, vede intrarea sa în vigoare amânată pentru 2 decembrie 2027 prin acordul politic provizoriu Digital Omnibus on AI din 7 mai 2026 - sub rezerva adoptării formale de către co-legislatori. Alineatul său (4)(b) impune ca persoanele fizice responsabile cu supervizarea umană a unui sistem IA cu risc ridicat să fie capabile să rămână conștiente de tendința de a se baza sau de a se baza prea mult automat pe ieșirea produsă de sistem („bias de automatizare”), în special pentru sistemele utilizate pentru a furniza informații sau recomandări în vederea deciziilor luate de persoane fizice (traducere liberă). Legătura mecanică cu efectul hard-easy este directă: încrederea modelelor atinge apogeul exact în cazurile în care greșesc cel mai mult, adică zona în care supervizorul uman dispune de semnalul cel mai puțin fiabil pentru a detecta o eroare. O soluție tehnică este documentată - THERMOMETER (Shen et al., MIT/IBM, ICML 2024) propune o calibrare post-hoc multi-sarcini, dar obligația articolului 14(4)(b) rămâne o cerință organizațională care apasă asupra deținătorului, independentă de progresele de calibrare din partea modelului. Pentru un cumpărător B2B european care mobilizează un LLM în ajutorul deciziilor medicale, în recrutare sau în notarea de credit - utilizări acoperite de Anexa III a regulamentului -, criteriul de selecție se mută: nu mai este suficient să se compare preciziile afișate, sistemul și interfața sa trebuie să permită supervizorului uman să moduleze încrederea produsă de model.

Stephane Nachez

Redacția ActuIA — știri, date și analize despre inteligența artificială pentru decidenți.

GPT mai încrezător în sarcinile dificile unde greșește cel mai mult, conform unui preprint USC/Berkeley

Benchmark-ul LifeEval și efectul hard-easy cuantificat

Un fascicul convergent de rezultate 2026

Articularea cu articolul 14(4)(b) din AI Act

Ajutați de GPT-5, apoi lăsați pe cont propriu: un experiment randomizat măsoară costul de învățare al asistenței IA

Machine unlearning: Google Research validează un test de audit, dar încă nu pentru LLM-uri

Preprintul ExpGraph propune o memorie grafică auto-evolutivă pentru agenții LLM