如果AI还未兑现提高生产力的承诺会怎样?独立实验室METR(模型评估与透明度研究)在2025年上半年进行的一项实验性研究颠覆了我们的信念。在熟悉的开源代码库中进行真实条件测试时,经验丰富的开发者使用生成式AI工具时平均比不使用时慢19%。这一意外的低效尤其令人惊讶,因为参与者自己错误地认为AI帮助他们加快了速度
传统的基准测试,如SWE-Bench Verified或RE-Bench,能够衡量AI模型的快速进展。但这些评估往往脱离实际环境:它们专注于孤立的、标准化的任务,自动评估,通常远离软件开发日常工作的实际需求和隐性约束。
为了得出关于生成式AI对软件开发实际影响的可靠结论,METR招募了16位开发者,他们对语言模型有数十到数百小时的经验,并平均参与开源成熟项目五年(22,000个GitHub星标,超过百万行代码)。
其随机对照试验(RCT)的方法论基于一个简单的原则:在246个与他们日常工作相关的技术问题(如bug、重构、功能改进)上随机允许或不允许使用AI(主要是Cursor Pro与Claude 3.5/3.7),然后测量解决时间。
工作时间通过自我报告并辅以屏幕录制。交付成果通过提交的Pull Requests进行质量评估。

感知与现实之间的差距

尽管有经验,开发者们预计AI能加快24%的速度。实验结束后,这一估计略有下降,但仍乐观,认为可节省20%的时间。
实际上,借助AI完成的任务平均比不使用AI的任务多耗费19%的时间,这一差距不仅与参与者的预期相反,也与经济领域(−39%)和机器学习领域(−38%)的外部专家的预测相悖。

多种解释

METR识别出五个主要因素可能解释这一减速:
  • 工具使用不当,尤其是过于简单的提示语;
  • 对AI接口如Cursor的熟悉度尚浅;
  • 研究项目中的高质量标准,有时与生成的建议不兼容;
  • 模型对复杂案例的覆盖不足;
  • 与AI实验相关的认知分散。
其他假设,如测量错误或方法论缺陷,已通过分析被排除。
研究并没有得出AI在所有情况下都损害开发人员性能的结论,而是强调生产力的提升不是立即或自动的:它依赖于工具、任务和专业环境之间的精细调整。