目录
GPT-4o、ChatGPT和GPT-o3展示的信心超过了它们的实际准确性,并且这种差距正是在困难任务上加剧——相反,在简单任务上,这些模型往往低估自己。这种困难-简单效应在一个正在审查中的ACL预印本中被量化,该文于2026年4月3日上传至arXiv https://arxiv.org/abs/2605.23909 ,直接影响到AI法案第14(4)(b)条所规定的人为监督:模型产生的信号在监督者最需要它的地方最不可靠。作者们——Noam Michael、Daniel BenShushan、Jacob Bien和Don A. Moore,分别来自USC Marshall商学院和UC Berkeley Haas商学院——报告了一个预先登记的协议、假设和在数据收集前声明的方法,这使得结果在测试范围内的经验价值更为稳固(适用于GPT-4o、ChatGPT和GPT-o3)。
信心信号在监督者最需要的地方最不可靠。
通过LifeEval在GPT-4o、ChatGPT和GPT-o3上测量的困难-简单效应——预先登记的协议,arXiv:2605.23909,2026年4月3日的v1版本
LifeEval基准测试和量化的困难-简单效应
为了产生这一结果,作者们构建了一个专有测试平台LifeEval,被介绍为一个用于评估模型在不同难度水平下校准能力的测试。整个测试集的平均最高得分(Mean Accuracy Score)为56.80%。报告了四个指标:平均得分、预期校准误差(ECE)、平均信心以及连接难度与过度自信的回归系数。后者是困难-简单效应的经验签名:在困难测试中,过度自信最为严重,而在简单测试中则表现出明显的低估信心。负责心理学锚定的联合作者是Don A. Moore,Haas商学院教授、Lorraine Tyson Mitchell领导与沟通讲席教授,关于这一主题的权威(«The Trouble With Overconfidence», Psychological Review, 2008)。需注意的方法论保留:与人类偏见的比较——在摘要中使用的“类似人类”公式——基于一种尚未在此阶段阐明的方法论比较。将人类困难-简单效应转移到大型语言模型(LLM)上仍在讨论中:Juslin, Winman和Olsson(Psychological Review, 2000)显示,一旦控制选择项目的人工因素,效应在人类中几乎完全消失,而在模型方面观察到的机制是否类似或者基于其他原因仍有待探讨。
范围不能外推
arXiv:2605.23909的论文是一个正在审查中的ACL预印本(2026年4月3日的v1版本):尚未经过同行评审。LifeEval涵盖了GPT-4o、ChatGPT和GPT-o3——结论不能机械地应用于其他模型系列。预先登记的协议加强了内部范围,但未扩大外部覆盖面。然而,随着连续版本的快速投产,这一发现需要相对化。
2026年一系列一致的研究结果
USC/Berkeley的论文并非孤立存在。其他三项近期研究在不同范围内记录了同样的错误校准。Sudipta Ghosh和Mrityunjoy Panday(Cognizant)在2026年2月发布了一项关于大型语言模型(LLM)中“Dunning-Kruger效应”的实证研究,涵盖了四个模型的24,000次试验。Kimi K2的预期校准误差为0.726,而其准确性仅为23.3%,而Claude Haiku 4.5在75.4%的准确性下达到了最佳校准(ECE 0.122)。表现最差的模型最为过度自信。在医学方面,npj Gut and Liver, Nature期刊的一个分支,于2026年2月5日发布了一项对48个LLM进行胃肠病学300个问题测试的评估:无论准确性如何,所有模型都表现出对自身确定性的错误估计。Johns Hopkins / MIT / Microsoft Healthcare团队在医学问题的视觉问答中(VQA,visual question answering)(arXiv:2604.02543)进一步证实了这一点:即使在产生幻觉时,模型也保持高信心。该模式现已在四个独立的方法学系列上得到证实。
与AI法案第14(4)(b)条的关联
欧洲的日程为这一系列结果提供了具体的操作意义。AI法案第14条,其原定于2026年8月2日生效的执行被推迟至2027年12月2日,这由2026年5月7日的数字人工智能临时政治协议(Digital Omnibus on AI)决定——需经共同立法者正式通过。其第(4)(b)款要求负责高风险AI系统监督的人在能力内保持对依赖或过度依赖系统输出的意识(“自动化偏见”),特别是在用于提供信息或建议以供人类决策的系统中(自由翻译)。与困难-简单效应的机械联系是直接的:模型的信心正是在它们最容易出错的情况下达到顶峰,即监督人员检测错误时最不可靠的信号区域。一种技术解决方案已被记录——THERMOMETER(Shen等,MIT/IBM,ICML 2024)提议了一种事后多任务校准,但第14(4)(b)条的要求仍然是对部署者的组织要求,与模型校准的进展无关。对于动用LLM进行医疗决策、招聘或信用评分等用途的欧洲B2B买家来说,选择标准发生了变化:不再仅仅比较显示的准确性,系统及其接口还必须允许人类监督者调整模型产生的信心。
