METR研究显示AI减缓了经验丰富的开发者

如果AI还未兑现提高生产力的承诺会怎样？独立实验室METR（模型评估与透明度研究）在2025年上半年进行的一项实验性研究颠覆了我们的信念。在熟悉的开源代码库中进行真实条件测试时，经验丰富的开发者使用生成式AI工具时平均比不使用时慢19%。这一意外的低效尤其令人惊讶，因为参与者自己错误地认为AI帮助他们加快了速度。

传统的基准测试，如SWE-Bench Verified或RE-Bench，能够衡量AI模型的快速进展。但这些评估往往脱离实际环境：它们专注于孤立的、标准化的任务，自动评估，通常远离软件开发日常工作的实际需求和隐性约束。

为了得出关于生成式AI对软件开发实际影响的可靠结论，METR招募了16位开发者，他们对语言模型有数十到数百小时的经验，并平均参与开源成熟项目五年（22,000个GitHub星标，超过百万行代码）。

其随机对照试验（RCT）的方法论基于一个简单的原则：在246个与他们日常工作相关的技术问题（如bug、重构、功能改进）上随机允许或不允许使用AI（主要是Cursor Pro与Claude 3.5/3.7），然后测量解决时间。

工作时间通过自我报告并辅以屏幕录制。交付成果通过提交的Pull Requests进行质量评估。

感知与现实之间的差距

尽管有经验，开发者们预计AI能加快24%的速度。实验结束后，这一估计略有下降，但仍乐观，认为可节省20%的时间。

实际上，借助AI完成的任务平均比不使用AI的任务多耗费19%的时间，这一差距不仅与参与者的预期相反，也与经济领域（−39%）和机器学习领域（−38%）的外部专家的预测相悖。

多种解释

METR识别出五个主要因素可能解释这一减速：

工具使用不当，尤其是过于简单的提示语；
对AI接口如Cursor的熟悉度尚浅；
研究项目中的高质量标准，有时与生成的建议不兼容；
模型对复杂案例的覆盖不足；
与AI实验相关的认知分散。

其他假设，如测量错误或方法论缺陷，已通过分析被排除。

研究并没有得出AI在所有情况下都损害开发人员性能的结论，而是强调生产力的提升不是立即或自动的：它依赖于工具、任务和专业环境之间的精细调整。

翻译自 Une étude METR révèle que l’IA ralentit les développeurs expérimentés

METR研究显示AI减缓了经验丰富的开发者

目录

感知与现实之间的差距

多种解释