GPT在最容易出错的困难任务上表现出更高信心，USC/Berkeley预印本研究表明

GPT-4o、ChatGPT和GPT-o3展示的信心超过了它们的实际准确性，并且这种差距正是在困难任务上加剧——相反，在简单任务上，这些模型往往低估自己。这种困难-简单效应在一个正在审查中的ACL预印本中被量化，该文于2026年4月3日上传至arXiv https://arxiv.org/abs/2605.23909 ，直接影响到AI法案第14(4)(b)条所规定的人为监督：模型产生的信号在监督者最需要它的地方最不可靠。作者们——Noam Michael、Daniel BenShushan、Jacob Bien和Don A. Moore，分别来自USC Marshall商学院和UC Berkeley Haas商学院——报告了一个预先登记的协议、假设和在数据收集前声明的方法，这使得结果在测试范围内的经验价值更为稳固（适用于GPT-4o、ChatGPT和GPT-o3）。

信心信号在监督者最需要的地方最不可靠。

通过LifeEval在GPT-4o、ChatGPT和GPT-o3上测量的困难-简单效应——预先登记的协议，arXiv:2605.23909，2026年4月3日的v1版本

LifeEval基准测试和量化的困难-简单效应

为了产生这一结果，作者们构建了一个专有测试平台LifeEval，被介绍为一个用于评估模型在不同难度水平下校准能力的测试。整个测试集的平均最高得分（Mean Accuracy Score）为56.80%。报告了四个指标：平均得分、预期校准误差（ECE）、平均信心以及连接难度与过度自信的回归系数。后者是困难-简单效应的经验签名：在困难测试中，过度自信最为严重，而在简单测试中则表现出明显的低估信心。负责心理学锚定的联合作者是Don A. Moore，Haas商学院教授、Lorraine Tyson Mitchell领导与沟通讲席教授，关于这一主题的权威（«The Trouble With Overconfidence», Psychological Review, 2008）。需注意的方法论保留：与人类偏见的比较——在摘要中使用的“类似人类”公式——基于一种尚未在此阶段阐明的方法论比较。将人类困难-简单效应转移到大型语言模型（LLM）上仍在讨论中：Juslin, Winman和Olsson（Psychological Review, 2000）显示，一旦控制选择项目的人工因素，效应在人类中几乎完全消失，而在模型方面观察到的机制是否类似或者基于其他原因仍有待探讨。

范围不能外推

arXiv:2605.23909的论文是一个正在审查中的ACL预印本（2026年4月3日的v1版本）：尚未经过同行评审。LifeEval涵盖了GPT-4o、ChatGPT和GPT-o3——结论不能机械地应用于其他模型系列。预先登记的协议加强了内部范围，但未扩大外部覆盖面。然而，随着连续版本的快速投产，这一发现需要相对化。

2026年一系列一致的研究结果

USC/Berkeley的论文并非孤立存在。其他三项近期研究在不同范围内记录了同样的错误校准。Sudipta Ghosh和Mrityunjoy Panday（Cognizant）在2026年2月发布了一项关于大型语言模型（LLM）中“Dunning-Kruger效应”的实证研究，涵盖了四个模型的24,000次试验。Kimi K2的预期校准误差为0.726，而其准确性仅为23.3%，而Claude Haiku 4.5在75.4%的准确性下达到了最佳校准（ECE 0.122）。表现最差的模型最为过度自信。在医学方面，npj Gut and Liver, Nature期刊的一个分支，于2026年2月5日发布了一项对48个LLM进行胃肠病学300个问题测试的评估：无论准确性如何，所有模型都表现出对自身确定性的错误估计。Johns Hopkins / MIT / Microsoft Healthcare团队在医学问题的视觉问答中（VQA，visual question answering）（arXiv:2604.02543）进一步证实了这一点：即使在产生幻觉时，模型也保持高信心。该模式现已在四个独立的方法学系列上得到证实。

与AI法案第14(4)(b)条的关联

欧洲的日程为这一系列结果提供了具体的操作意义。AI法案第14条，其原定于2026年8月2日生效的执行被推迟至2027年12月2日，这由2026年5月7日的数字人工智能临时政治协议（Digital Omnibus on AI）决定——需经共同立法者正式通过。其第（4）（b）款要求负责高风险AI系统监督的人在能力内保持对依赖或过度依赖系统输出的意识（“自动化偏见”），特别是在用于提供信息或建议以供人类决策的系统中（自由翻译）。与困难-简单效应的机械联系是直接的：模型的信心正是在它们最容易出错的情况下达到顶峰，即监督人员检测错误时最不可靠的信号区域。一种技术解决方案已被记录——THERMOMETER（Shen等，MIT/IBM，ICML 2024）提议了一种事后多任务校准，但第14(4)(b)条的要求仍然是对部署者的组织要求，与模型校准的进展无关。对于动用LLM进行医疗决策、招聘或信用评分等用途的欧洲B2B买家来说，选择标准发生了变化：不再仅仅比较显示的准确性，系统及其接口还必须允许人类监督者调整模型产生的信心。

Stephane Nachez

ActuIA 编辑部 — 面向决策者的人工智能资讯、数据与分析。

GPT在最容易出错的困难任务上表现出更高信心，USC/Berkeley预印本研究表明

LifeEval基准测试和量化的困难-简单效应

2026年一系列一致的研究结果

与AI法案第14(4)(b)条的关联

在 GPT-5 的帮助下完成任务，随后只能独立应对：一项随机试验测量 AI 辅助的学习成本

Machine unlearning：Google Research 验证了一项审计测试，但尚未覆盖 LLMs

ExpGraph预印本提出自我演化图形记忆用于LLM代理