TLDR : METR 연구에 따르면, AI 도구 사용 시 숙련된 개발자의 작업 속도가 평균 19% 감소합니다. 이는 AI의 도움으로 작업이 더 빨라질 것이라고 생각했던 참가자들의 예상과는 상반된 결과입니다.
목록
AI가 생산성 향상의 약속을 아직 지키지 못하고 있는 것은 아닐까? 독립 연구소 METR(Model Evaluation and Transparency Research)이 2025년 상반기에 실시한 실험 연구가 이러한 확신을 뒤흔들고 있다. 잘 알고 있는 오픈 소스 저장소에서 실제 조건 하에 테스트된 숙련된 개발자들은 AI 생성 도구를 사용할 때 평균적으로 19% 더 느리게 작업했다. 이는 참가자들 자신이 AI가 더 빠르게 작업하는 데 도움을 줬다고 잘못 판단한 만큼 더욱 놀라운 결과였다.
전통적인 벤치마크, 예를 들어 SWE-Bench Verified나 RE-Bench는 AI 모델의 빠른 발전을 측정할 수 있게 해준다. 그러나 이 평가들은 종종 맥락과 동떨어져 있으며, 고립된 작업, 표준화된 작업에 집중하고, 자동으로 평가되며, 일상적인 소프트웨어 작업의 실질적 요구사항과 암묵적 제약에서 종종 벗어나 있다.
AI 생성이 소프트웨어 개발에 미치는 실질적인 영향을 신뢰할 수 있게 평가하기 위해, METR은 언어 모델 경험이 수십에서 수백 시간인 개발자 16명을 모집했다. 이들은 평균적으로 5년 이상 성숙한 오픈 소스 프로젝트(22,000 GitHub 별, 백만 줄 이상의 코드)에 기여하고 있었다.
METR의 무작위 대조 시험(RCT)의 방법론은 단순한 원칙에 기반을 두고 있다: 일상적인 직업적 과제(버그, 리팩토링, 기능 개선) 246개 세트에 대해 AI 사용을 허용하거나 허용하지 않고, 주로 Cursor Pro와 Claude 3.5/3.7을 사용하여 무작위로 할당한 후 해결 시간을 측정하는 것이다.
작업 시간은 자가 보고되었으며, 화면 기록으로 보완되었다. 제출된 Pull Request를 통해 산출물은 질적으로 평가되었다.
인지와 현실 간의 차이
경험이 있음에도 불구하고, 개발자들은 AI 덕분에 24%의 가속을 예상했다. 실험이 끝난 후, 이 추정치는 다소 낮아졌지만 여전히 낙관적이었다: 20%의 시간 절감이 예상되었다.
실제로, AI의 도움을 받아 수행한 작업은 AI 없이 수행한 작업보다 평균 19% 더 오래 걸렸다. 참가자들의 예상과는 반대로, 외부 경제학 및 머신러닝 분야의 전문가들이 예측한 −39% 및 −38%와도 반대되는 결과였다.
다양한 설명
METR은 이 속도 저하를 설명할 수 있는 다섯 가지 주요 요인을 식별했다:
- 너무 단순한 프롬프트를 포함한 도구의 불완전한 사용;
- Cursor와 같은 AI 인터페이스에 대한 제한된 친숙함;
- 연구된 프로젝트의 높은 품질 기준이 생성된 제안과 때때로 맞지 않음;
- 복잡한 사례에 대한 모델의 불충분한 커버리지;
- AI 실험과 관련된 인지적 산만함.
측정 오류나 방법론적 결함과 같은 다른 가설들은 분석을 통해 배제되었다.
모든 맥락에서 모든 개발자의 성과를 저하한다고 결론짓기보다는, 연구는 생산성 향상이 즉각적이거나 자동적이지 않다는 점을 강조한다: 이는 도구, 작업 및 직업적 맥락 간의 미세한 조정에 달려 있다.