GPT più fiducioso nei compiti difficili dove sbaglia di più, secondo un preprint USC/Berkeley

GPT più fiducioso nei compiti difficili dove sbaglia di più, secondo un preprint USC/Berkeley

TLDR : Un nuovo studio mostra che GPT-4o, ChatGPT e GPT-o3 tendono a essere più fiduciosi nei compiti difficili, dove commettono più errori, il che rappresenta una sfida per la supervisione umana secondo l'AI Act.

La fiducia mostrata da GPT-4o, ChatGPT e GPT-o3 supera la loro precisione reale, e il divario si allarga precisamente nei compiti difficili - al contrario, nei compiti facili, i modelli si sottovalutano. Questo effetto hard-easy quantificato in un preprint sotto revisione ACL pubblicato su arXiv il 3 aprile 2026 tocca direttamente la supervisione umana prevista all'articolo 14(4)(b) dell'AI Act: il segnale di fiducia prodotto dal modello è il meno affidabile proprio dove il supervisore ne avrebbe più bisogno. Gli autori - Noam Michael, Daniel BenShushan, Jacob Bien e Don A. Moore, USC Marshall School of Business e UC Berkeley Haas School of Business - riportano un protocollo preregistrato, ipotesi e metodologia dichiarate prima della raccolta dei dati, il che rafforza la portata empirica del risultato sul perimetro testato (GPT-4o, ChatGPT e GPT-o3).

Il segnale di fiducia è il meno affidabile proprio dove il supervisore ne avrebbe più bisogno.

Effetto hard-easy misurato su GPT-4o, ChatGPT e GPT-o3 tramite LifeEval - protocollo preregistrato, arXiv:2605.23909, v1 del 3 aprile 2026

Il benchmark LifeEval e l'effetto hard-easy quantificato

Per produrre questo risultato, gli autori hanno costruito un banco di prova proprietario, LifeEval, presentato (traduzione libera) come un test concepito per valutare la calibrazione dei modelli attraverso diversi livelli di difficoltà. Su tutto il gioco, il punteggio massimo raggiungibile medio (Mean Accuracy Score) si attesta al 56,80 %. Quattro metriche sono riportate: Mean Score, Expected Calibration Error (ECE), Mean Confidence, e un coefficiente di regressione che lega difficoltà e sovraconfidenza. Quest'ultimo coefficiente porta la firma empirica dell'effetto hard-easy: la sovraconfidenza è più forte nei test difficili, mentre i test facili danno luogo a una sottofiducia sostanziale. Il coautore garante dell'ancoraggio psicologico è Don A. Moore, professore alla Haas School of Business e titolare della Lorraine Tyson Mitchell Chair in Leadership and Communication, autore di riferimento sul tema («The Trouble With Overconfidence»Psychological Review, 2008). Una riserva metodologica resta da portare: il confronto con il bias umano - formula «like people» mobilitata nell'abstract - si basa su un'analogia la cui metodologia comparativa non è esplicitata a questo stadio. La trasposizione agli LLM dell'effetto hard-easy umano resta comunque discussa: Juslin, Winman e Olsson (Psychological Review, 2000) hanno mostrato che l'effetto scompare quasi completamente negli esseri umani una volta controllati gli artefatti di selezione degli elementi, e la questione di sapere se il meccanismo osservato lato modello è analogo o si basa su altre cause resta aperta.

Perimetro da non estendere

Il paper arXiv:2605.23909 è un preprint sotto revisione ACL (v1, 3 aprile 2026): risultati non ancora validati da comitato di lettura. LifeEval copre GPT-4o, ChatGPT e GPT-o3 - le conclusioni non si applicano meccanicamente ad altre famiglie di modelli. Il protocollo preregistrato rafforza la portata interna, ma non allarga la copertura esterna. Il ritmo intenso di messa in produzione delle versioni successive forza tuttavia a relativizzare il constato.

Un insieme convergente di risultati 2026

Il paper USC/Berkeley non arriva isolato. Altri tre lavori recenti documentano la stessa miscalibrazione, su perimetri distinti. Sudipta Ghosh e Mrityunjoy Panday (Cognizant) hanno pubblicato in febbraio 2026 uno studio empirico dell'«effetto Dunning-Kruger» nei LLM coprendo 24.000 prove su quattro modelli. Kimi K2 mostra un Expected Calibration Error di 0,726 per una precisione di solo 23,3 %, mentre Claude Haiku 4.5 raggiunge la migliore calibrazione misurata (ECE 0,122) al 75,4 % di precisione. I modelli meno performanti sono i più sovraconfidenti. Nel settore medico, npj Gut and Liver, rivista del portafoglio Nature, ha pubblicato il 5 febbraio 2026 una valutazione riguardante 48 LLM testati su 300 domande di gastroenterologia: indipendentemente dal livello di precisione, tutti i modelli mostrano una cattiva stima della loro stessa certezza. Un team Johns Hopkins / MIT / Microsoft Healthcare prolunga questo constato in risposta visiva a domande mediche (VQA, visual question answering) (arXiv:2604.02543): i modelli mantengono una fiducia elevata anche quando producono allucinazioni. Il pattern è ormai documentato su quattro famiglie metodologiche indipendenti.

Articolazione con l'articolo 14(4)(b) dell'AI Act

Il calendario europeo dà a questo insieme di risultati una portata operativa datata. L'articolo 14 dell'AI Act, la cui applicazione era inizialmente prevista il 2 agosto 2026, vede la sua entrata in vigore posticipata al 2 dicembre 2027 dall'accordo politico provvisorio Digital Omnibus on AI del 7 maggio 2026 - sotto riserva di adozione formale da parte dei co-legislatori. Il suo comma (4)(b) impone che le persone fisiche incaricate della supervisione umana di un sistema IA ad alto rischio siano in grado di rimanere consapevoli della tendenza ad affidarsi o a fare troppo affidamento automaticamente sull'output prodotto dal sistema («bias di automazione»), in particolare per i sistemi utilizzati per fornire informazioni o raccomandazioni in vista di decisioni prese da persone fisiche (traduzione libera). Il legame meccanico con l'effetto hard-easy è diretto: la fiducia dei modelli culmina precisamente nei casi in cui sbagliano di più, cioè la zona dove il supervisore umano dispone del segnale meno affidabile per rilevare un errore. Una soluzione tecnica è documentata - THERMOMETER (Shen et al., MIT/IBM, ICML 2024) propone una calibrazione post-hoc multi-task, ma l'obbligo dell'articolo 14(4)(b) rimane un'esigenza organizzativa che grava sul distributore, indipendente dai progressi di calibrazione lato modello. Per un acquirente B2B europeo che utilizza un LLM in aiuto alla decisione medica, nel reclutamento o nella valutazione del credito - usi coperti da l'Allegato III del regolamento -, il criterio di selezione si sposta: non basta più confrontare le precisioni dichiarate, occorre anche che il sistema e la sua interfaccia permettano al supervisore umano di modulare la fiducia prodotta dal modello.