GPT mais confiante em tarefas difíceis onde mais erra, segundo preprint USC/Berkeley

GPT mais confiante em tarefas difíceis onde mais erra, segundo preprint USC/Berkeley

Em resumo : O estudo do USC/Berkeley mostra que modelos como GPT-4o e ChatGPT estão mais confiantes em tarefas difíceis, onde cometem mais erros, e menos confiantes em tarefas fáceis. Isso tem implicações diretas para a supervisão humana na IA, conforme o artigo 14(4)(b) do AI Act, que requer que supervisores humanos permaneçam conscientes da tendência de confiar automaticamente nos sistemas de IA.

A confiança exibida pelo GPT-4o, ChatGPT e GPT-o3 supera sua precisão real, e a diferença se amplia precisamente nas tarefas difíceis - em tarefas fáceis, ao contrário, os modelos se subestimam. Este efeito hard-easy quantificado em um preprint sob revisão ACL publicado no arXiv em 3 de abril de 2026 afeta diretamente a supervisão humana prevista no artigo 14(4)(b) do AI Act: o sinal de confiança produzido pelo modelo é o menos confiável onde o supervisor mais precisaria dele. Os autores - Noam Michael, Daniel BenShushan, Jacob Bien e Don A. Moore, USC Marshall School of Business e UC Berkeley Haas School of Business - relatam um protocolo pré-registrado, hipóteses e metodologia declaradas antes da coleta de dados, o que reforça o alcance empírico do resultado no escopo testado (GPT-4o, ChatGPT e GPT-o3).

O sinal de confiança é o menos confiável onde o supervisor mais precisaria dele.

Efeito hard-easy medido em GPT-4o, ChatGPT e GPT-o3 via LifeEval - protocolo pré-registrado, arXiv:2605.23909, v1 de 3 de abril de 2026

O benchmark LifeEval e o efeito hard-easy quantificado

Para produzir este resultado, os autores construíram um banco de testes proprietário, LifeEval, apresentado (tradução livre) como um teste concebido para avaliar a calibração dos modelos em diferentes níveis de dificuldade. No conjunto total, a pontuação máxima média alcançável (Mean Accuracy Score) é de 56,80 %. Quatro métricas são relatadas: Mean Score, Expected Calibration Error (ECE), Mean Confidence, e um coeficiente de regressão ligando dificuldade e sobreconfiança. Este último coeficiente traz a assinatura empírica do efeito hard-easy: a sobreconfiança é mais forte nos testes difíceis, enquanto os testes fáceis resultam em uma subconfiança substancial. O coautor responsável pela âncora psicológica é Don A. Moore, professor na Haas School of Business e titular da Lorraine Tyson Mitchell Chair in Leadership and Communication, autor de referência sobre o assunto ("The Trouble With Overconfidence"Psychological Review, 2008). Uma reserva metodológica deve ser feita: a comparação com o viés humano - fórmula "like people" mobilizada no resumo - baseia-se em uma analogia cuja metodologia comparativa não é explicitada neste estágio. A transposição para os LLM do efeito hard-easy humano permanece, portanto, discutida: Juslin, Winman e Olsson (Psychological Review, 2000) mostraram que o efeito desaparece quase integralmente nos humanos uma vez controlados os artefatos de seleção dos itens, e a questão de saber se o mecanismo observado no lado do modelo é análogo ou se baseia em outras causas permanece em aberto.

Escopo a não ser extrapolado

O paper arXiv:2605.23909 é um preprint sob revisão ACL (v1, 3 de abril de 2026): resultados ainda não validados por comitê de leitura. LifeEval cobre GPT-4o, ChatGPT e GPT-o3 - as conclusões não se aplicam mecanicamente a outras famílias de modelos. O protocolo pré-registrado reforça o alcance interno, mas não amplia a cobertura externa. O ritmo intenso de produção das versões sucessivas obriga, contudo, a relativizar o constatado.

Um conjunto convergente de resultados 2026

O paper USC/Berkeley não chega isolado. Outros três trabalhos recentes documentam a mesma descalibração, em escopos distintos. Sudipta Ghosh e Mrityunjoy Panday (Cognizant) publicaram em fevereiro de 2026 um estudo empírico do "efeito Dunning-Kruger" nos LLM cobrindo 24.000 ensaios em quatro modelos. Kimi K2 apresenta um Expected Calibration Error de 0,726 para uma precisão de apenas 23,3 %, enquanto Claude Haiku 4.5 atinge a melhor calibração medida (ECE 0,122) com 75,4 % de precisão. Os modelos menos performantes são os mais sobreconfiantes. No lado médico, npj Gut and Liver, revista do portfólio Nature, publicou em 5 de fevereiro de 2026 uma avaliação envolvendo 48 LLM testados em 300 questões de gastroenterologia: independentemente do nível de precisão, todos os modelos apresentam uma má estimativa de sua própria certeza. Uma equipe Johns Hopkins / MIT / Microsoft Healthcare prolonga esta constatação em resposta visual a questões médicas (VQA, visual question answering) (arXiv:2604.02543): os modelos mantêm alta confiança mesmo quando produzem alucinações. O padrão agora está documentado em quatro famílias metodológicas independentes.

Articulação com o artigo 14(4)(b) do AI Act

O calendário europeu dá a este conjunto de resultados um alcance operacional datado. O artigo 14 do AI Act, cuja aplicação estava inicialmente prevista para 2 de agosto de 2026, vê sua entrada em vigor adiada para 2 de dezembro de 2027 pelo acordo político provisório Digital Omnibus on AI de 7 de maio de 2026 - sujeito à adoção formal pelos colegisladores. Seu parágrafo (4)(b) impõe que as pessoas físicas encarregadas da supervisão humana de um sistema de IA de alto risco sejam capazes de permanecer conscientes da tendência de confiar ou confiar automaticamente demais na saída produzida pelo sistema ("viés de automação"), em particular para sistemas usados para fornecer informações ou recomendações em vista de decisões tomadas por pessoas físicas (tradução livre). A ligação mecânica com o efeito hard-easy é direta: a confiança dos modelos atinge o auge precisamente nos casos em que mais erram, ou seja, a zona onde o supervisor humano dispõe do sinal menos confiável para detectar um erro. Uma solução técnica está documentada - THERMOMETER (Shen et al., MIT/IBM, ICML 2024) propõe uma calibração post-hoc multi-tarefas, mas a obrigação do artigo 14(4)(b) permanece uma exigência organizacional pesando sobre o implantador, independente dos avanços de calibração do lado do modelo. Para um comprador B2B europeu mobilizando um LLM em apoio à decisão médica, em recrutamento ou em avaliação de crédito - usos cobertos pela Anexo III do regulamento -, o critério de seleção se desloca: não basta mais comparar as precisões exibidas, é necessário que o sistema e sua interface permitam ao supervisor humano modular a confiança produzida pelo modelo.