目录
在沙盒环境中成功率达99%的计算机视觉概念验证在11,000家门店的生产环境中可能失败:Starbucks于2026年5月底撤下“自动计数工具”,这是一个有据可查的例子。该连锁店在2026年5月21日这一周内撤下了由NomadGo开发的“自动计数”工具,该工具在北美超过11,000家门店中部署了九个月,用于牛奶和糖浆的库存盘点。公司重新回到了完全的手动计数。该解决方案由位于华盛顿州雷德蒙德的NomadGo设计,由David Greschler领导。根据2025年9月3日的BusinessWire公告,该公司声称其速度是手动计数的八倍,精确度达到了99%,这些数据未经独立验证。撤回的事件由Bigeye在2026年5月23日发布的分析AI Autopsy记录。
从声称的99%精确度到九个月内的撤回——涉及11,000家门店。
数据源自NomadGo官方公告(2025年9月):在受控环境中测量的精确度,未在大规模部署前得到独立验证。
作为Niccol复苏计划的关键工具,与亚马逊的先例类似
“自动计数”是由Brian Niccol推动的操作复苏计划的一部分,他于2024年9月成为Starbucks的总经理,旨在减少高周转率产品的库存短缺。2025年9月3日的发布公告中提到,技术已在沙盒环境中测试了“多年”,但这种试点时间并未能防止生产中的失败。该场景让人联想到Amazon Fresh的Just Walk Out技术,Ars Technica在2024年4月报道称该技术并不像宣称的那样自主,需要在印度的约一千名工人查看视频以验证交易(自由翻译)——该揭露与Amazon同年停止该设备的时间一致。ActuIA在2023年已经记录了AI在零售业中的渗透,在这个领域精确度的声称与实际性能之间的差距在大规模上变得明显。对于任何正在进行零售计算机视觉概念验证的组织而言,这个案例提出了一个直接的运营问题:沙盒验证条件是否复现了导致11,000家门店部署失败的变量?
移动架构和超过1,000个SKU时已知的失败类别
NomadGo的解决方案结合了计算机视觉、LiDAR传感器、三维空间处理和增强现实叠加,全部通过分配给店内员工的智能手机或平板电脑操作,这种架构称为移动扫描。报告的故障涉及不同类型牛奶的混淆和高视觉密度参考项的计数错误。根据2026年4月发布的TechnoLynx分析,这种现象被称为复合故障类别,能够在500个参考项上通过准确性测试的计算机视觉模型在生产中超过1,000个时失败,不是因为单一原因,而是由于四个同时发生的故障轴(自由翻译)。该理论认为,受控环境下验证的精确性(有限的参考项范围、稳定的照明、标准化的布局)在真实环境中因参考项的增加、照明变化和非标准包装而退化。Bigeye于2026年5月23日的分析总结了其标题中记录的差距,描述了Starbucks的AI库存工具如何从99%的标称精确度在九个月内被撤回(自由翻译)。
1,000 SKU的门槛:一个失败类别,而非孤立的bug
根据TechnoLynx(2026年4月),在少于500个参考项上验证的计算机视觉模型在生产中超过1,000个产品类别时失败——不是因为单一原因,而是由于四个同时发生的故障轴:SKU的增加、照明的变动、布局的异质性、非标准化的包装。这种复合故障机制独立于Starbucks案例而被记录。
Focal Systems在Morrisons:大规模零售计算机视觉部署的固定摄像头架构
在同一领域,Focal Systems在英国零售商Morrisons的部署在其公司公告中被描述为食品零售业中最大规模的计算机视觉部署之一。根据同一公告,该部署在整个门店网络中实现了“超过2%的产品可用性提升,在表现最好的门店中则达到了4%”(自由翻译)——这个数字由发布者自行声明,未见第三方的验证。该项目获得了“2024年度数字化转型项目奖”。Focal Systems的架构依赖于线性固定摄像头,而NomadGo则通过分配给员工的移动终端操作:架构变量构成了两种设备之间可观察的结构性差异。在任何大规模部署零售计算机视觉系统之前,三种变量值得在真实条件下测试:经过验证的参考项目录(沙盒对比生产环境,超过1,000 SKU门槛的具体测量)、捕捉架构(分配给员工的移动扫描或线性固定摄像头)以及由独立第三方记录的精确度测量。在撤回11,000家门店之前,NomadGo并未发布其中任何一项结果。
