AI가 생산성 향상의 약속을 아직 지키지 못하고 있는 것은 아닐까? 독립 연구소 METR(Model Evaluation and Transparency Research)이 2025년 상반기에 실시한 실험 연구가 이러한 확신을 뒤흔들고 있다. 잘 알고 있는 오픈 소스 저장소에서 실제 조건 하에 테스트된 숙련된 개발자들은 AI 생성 도구를 사용할 때 평균적으로 19% 더 느리게 작업했다. 이는 참가자들 자신이 AI가 더 빠르게 작업하는 데 도움을 줬다고 잘못 판단한 만큼 더욱 놀라운 결과였다.
전통적인 벤치마크, 예를 들어 SWE-Bench Verified나 RE-Bench는 AI 모델의 빠른 발전을 측정할 수 있게 해준다. 그러나 이 평가들은 종종 맥락과 동떨어져 있으며, 고립된 작업, 표준화된 작업에 집중하고, 자동으로 평가되며, 일상적인 소프트웨어 작업의 실질적 요구사항과 암묵적 제약에서 종종 벗어나 있다.
AI 생성이 소프트웨어 개발에 미치는 실질적인 영향을 신뢰할 수 있게 평가하기 위해, METR은 언어 모델 경험이 수십에서 수백 시간인 개발자 16명을 모집했다. 이들은 평균적으로 5년 이상 성숙한 오픈 소스 프로젝트(22,000 GitHub 별, 백만 줄 이상의 코드)에 기여하고 있었다.
METR의 무작위 대조 시험(RCT)의 방법론은 단순한 원칙에 기반을 두고 있다: 일상적인 직업적 과제(버그, 리팩토링, 기능 개선) 246개 세트에 대해 AI 사용을 허용하거나 허용하지 않고, 주로 Cursor Pro와 Claude 3.5/3.7을 사용하여 무작위로 할당한 후 해결 시간을 측정하는 것이다.
작업 시간은 자가 보고되었으며, 화면 기록으로 보완되었다. 제출된 Pull Request를 통해 산출물은 질적으로 평가되었다.
인지와 현실 간의 차이
경험이 있음에도 불구하고, 개발자들은 AI 덕분에 24%의 가속을 예상했다. 실험이 끝난 후, 이 추정치는 다소 낮아졌지만 여전히 낙관적이었다: 20%의 시간 절감이 예상되었다.
실제로, AI의 도움을 받아 수행한 작업은 AI 없이 수행한 작업보다 평균 19% 더 오래 걸렸다. 참가자들의 예상과는 반대로, 외부 경제학 및 머신러닝 분야의 전문가들이 예측한 −39% 및 −38%와도 반대되는 결과였다.
다양한 설명
METR은 이 속도 저하를 설명할 수 있는 다섯 가지 주요 요인을 식별했다:
- 너무 단순한 프롬프트를 포함한 도구의 불완전한 사용;
- Cursor와 같은 AI 인터페이스에 대한 제한된 친숙함;
- 연구된 프로젝트의 높은 품질 기준이 생성된 제안과 때때로 맞지 않음;
- 복잡한 사례에 대한 모델의 불충분한 커버리지;
- AI 실험과 관련된 인지적 산만함.
측정 오류나 방법론적 결함과 같은 다른 가설들은 분석을 통해 배제되었다.
모든 맥락에서 모든 개발자의 성과를 저하한다고 결론짓기보다는, 연구는 생산성 향상이 즉각적이거나 자동적이지 않다는 점을 강조한다: 이는 도구, 작업 및 직업적 맥락 간의 미세한 조정에 달려 있다.
