GPT más seguro en tareas difíciles donde más se equivoca, según un preprint de USC/Berkeley

La confianza mostrada por GPT-4o, ChatGPT y GPT-o3 supera su precisión real, y la brecha se amplía precisamente en las tareas difíciles; en las tareas fáciles, por el contrario, los modelos se infravaloran. Este efecto difícil-fácil cuantificado en un preprint bajo revisión ACL publicado en arXiv el 3 de abril de 2026 afecta directamente la supervisión humana prevista en el artículo 14(4)(b) de la AI Act: la señal de confianza producida por el modelo es menos fiable donde el supervisor más la necesita. Los autores - Noam Michael, Daniel BenShushan, Jacob Bien y Don A. Moore, USC Marshall School of Business y UC Berkeley Haas School of Business - informan sobre un protocolo pre-registrado, hipótesis y metodología declaradas antes de la recolección de datos, lo que refuerza el alcance empírico del resultado en el perímetro probado (GPT-4o, ChatGPT y GPT-o3).

La señal de confianza es menos fiable donde el supervisor más la necesita.

Efecto difícil-fácil medido en GPT-4o, ChatGPT y GPT-o3 a través de LifeEval - protocolo pre-registrado, arXiv:2605.23909, v1 del 3 de abril de 2026

El benchmark LifeEval y el efecto difícil-fácil cuantificado

Para producir este resultado, los autores construyeron un banco de pruebas propietario, LifeEval, presentado (traducción libre) como un test diseñado para evaluar la calibración de los modelos a través de diferentes niveles de dificultad. En el conjunto del juego, la puntuación máxima alcanzable media (Mean Accuracy Score) se establece en un 56,80%. Se reportan cuatro métricas: Mean Score, Expected Calibration Error (ECE), Mean Confidence, y un coeficiente de regresión que vincula dificultad y sobreconfianza. Este último coeficiente lleva la firma empírica del efecto difícil-fácil: la sobreconfianza es más fuerte en las pruebas difíciles, mientras que las pruebas fáciles dan lugar a una subconfianza sustancial. El coautor garante del anclaje psicológico es Don A. Moore, profesor en la Haas School of Business y titular de la Lorraine Tyson Mitchell Chair in Leadership and Communication, autor de referencia sobre el tema («The Trouble With Overconfidence», Psychological Review, 2008). Una reserva metodológica queda por hacer: la comparación con el sesgo humano - fórmula «like people» movilizada en el resumen - se basa en una analogía cuya metodología comparativa no se explicita en esta etapa. La transposición a los LLM del efecto difícil-fácil humano sigue siendo discutida: Juslin, Winman y Olsson (Psychological Review, 2000) han mostrado que el efecto desaparece casi completamente en los humanos una vez controlados los artefactos de selección de ítems, y la cuestión de si el mecanismo observado en el lado del modelo es análogo o se basa en otras causas sigue abierta.

Perímetro a no extrapolar

El paper arXiv:2605.23909 es un preprint bajo revisión ACL (v1, 3 de abril de 2026): resultados aún no validados por comité de lectura. LifeEval cubre GPT-4o, ChatGPT y GPT-o3 - las conclusiones no se aplican mecánicamente a otras familias de modelos. El protocolo pre-registrado refuerza el alcance interno, pero no amplía la cobertura externa. Sin embargo, el ritmo intenso de puesta en producción de las versiones sucesivas obliga a relativizar el hallazgo.

Un conjunto convergente de resultados 2026

El paper USC/Berkeley no llega aislado. Otros tres trabajos recientes documentan la misma descalibración, en diferentes perímetros. Sudipta Ghosh y Mrityunjoy Panday (Cognizant) publicaron en febrero de 2026 un estudio empírico del «efecto Dunning-Kruger» en los LLM cubriendo 24,000 ensayos en cuatro modelos. Kimi K2 muestra un Expected Calibration Error de 0,726 para una precisión de solo 23,3%, mientras que Claude Haiku 4.5 alcanza la mejor calibración medida (ECE 0,122) con un 75,4% de precisión. Los modelos menos performantes son los más sobreconfiados. En el lado médico, npj Gut and Liver, revista del portafolio Nature, publicó el 5 de febrero de 2026 una evaluación sobre 48 LLM probados en 300 preguntas de gastroenterología: independientemente del nivel de precisión, todos los modelos muestran una mala estimación de su propia certeza. Un equipo de Johns Hopkins / MIT / Microsoft Healthcare prolonga este hallazgo en respuesta visual a preguntas médicas (VQA, visual question answering) (arXiv:2604.02543): los modelos mantienen una alta confianza incluso cuando producen alucinaciones. El patrón está ahora documentado en cuatro familias metodológicas independientes.

Articulación con el artículo 14(4)(b) de la AI Act

El calendario europeo da a este conjunto de resultados un alcance operativo fechado. El artículo 14 de la AI Act, cuya aplicación estaba inicialmente prevista para el 2 de agosto de 2026, ve su entrada en vigor aplazada al 2 de diciembre de 2027 por el acuerdo político provisional Digital Omnibus on AI del 7 de mayo de 2026 - sujeto a adopción formal por los colegisladores. Su apartado (4)(b) impone que las personas físicas encargadas de la supervisión humana de un sistema IA de alto riesgo sean capaces de permanecer conscientes de la tendencia a depender o a depender demasiado automáticamente de la salida producida por el sistema («sesgo de automatización»), en particular para los sistemas utilizados para proporcionar información o recomendaciones en vista de decisiones tomadas por personas físicas (traducción libre). El vínculo mecánico con el efecto difícil-fácil es directo: la confianza de los modelos alcanza su punto máximo precisamente en los casos donde más se equivocan, es decir, la zona donde el supervisor humano dispone de la señal menos fiable para detectar un error. Una solución técnica está documentada - THERMOMETER (Shen et al., MIT/IBM, ICML 2024) propone una calibración post-hoc multitarea , pero la obligación del artículo 14(4)(b) sigue siendo un requerimiento organizativo que recae sobre el implementador, independientemente de los avances de calibración del modelo. Para un comprador B2B europeo que utiliza un LLM en asistencia a la decisión médica, en reclutamiento o en calificación de crédito - usos cubiertos por el Anexo III del reglamento -, el criterio de selección se desplaza: ya no basta con comparar las precisiones mostradas, además el sistema y su interfaz deben permitir al supervisor humano modular la confianza producida por el modelo.

Stephane Nachez

Redacción de ActuIA — noticias, datos y análisis sobre inteligencia artificial para los responsables de decisiones.

GPT más seguro en tareas difíciles donde más se equivoca, según un preprint de USC/Berkeley

El benchmark LifeEval y el efecto difícil-fácil cuantificado

Un conjunto convergente de resultados 2026

Articulación con el artículo 14(4)(b) de la AI Act

Ayudados por GPT-5, y luego dejados a su suerte: un ensayo aleatorizado mide el coste del aprendizaje de la asistencia de IA

Machine unlearning: Google Research valida una prueba de auditoría, pero aún no en los LLMs

El preprint ExpGraph propone una memoria en grafo autoevolutiva para agentes LLM