Wat als AI zijn beloften van productiviteitswinst nog niet waarmaakt? Een experimentele studie uitgevoerd door het onafhankelijke laboratorium METR (Model Evaluation and Transparency Research) in de eerste helft van 2025 zet zekerheden op losse schroeven. Getest onder realistische omstandigheden op open source repositories die ze goed kennen, waren ervaren ontwikkelaars gemiddeld 19% langzamer wanneer ze gebruik maakten van generatieve AI-tools dan wanneer ze dat niet deden. Een onverwachte tegenprestatie, des te opvallender omdat de deelnemers zelf ten onrechte dachten dat AI hen had geholpen sneller te werken.
Traditionele benchmarks, zoals SWE-Bench Verified of RE-Bench, hebben het mogelijk gemaakt de snelle vooruitgang van AI-modellen te meten. Maar deze evaluaties zijn vaak uit hun context gehaald: ze richten zich op geïsoleerde, gestandaardiseerde taken die automatisch worden geëvalueerd, vaak ver verwijderd van de praktische eisen en impliciete beperkingen van het dagelijkse softwarewerk.
Om betrouwbare conclusies te trekken over de werkelijke impact van generatieve AI op softwareontwikkeling, heeft METR 16 ontwikkelaars gerekruteerd met tientallen tot honderden uren ervaring met taalmodellen en die gemiddeld al vijf jaar bijdragen aan volwassen open source-projecten (22.000 GitHub-sterren, meer dan een miljoen coderegels).
De methodologie van hun gerandomiseerde gecontroleerde proef (RCT) is gebaseerd op een eenvoudig principe: het al dan niet toestaan van het gebruik van AI (voornamelijk Cursor Pro met Claude 3.5/3.7), willekeurig, op een set van 246 technische problemen die deel uitmaken van hun professionele dagelijks leven (bugs, refactorings, functieverbeteringen), en vervolgens de oplostijd meten.
De werktijden werden zelf gerapporteerd en aangevuld met schermopnames. De deliverables werden kwalitatief geëvalueerd via de ingediende Pull Requests.
Een kloof tussen perceptie en werkelijkheid
Ondanks hun ervaring anticipeerden de ontwikkelaars op een versnelling van 24% dankzij AI. Aan het einde van de experimentatie was deze schatting iets gedaald, maar bleef optimistisch: 20% tijdwinst werd waargenomen.
In werkelijkheid namen de taken die met behulp van AI werden uitgevoerd gemiddeld 19% meer tijd in beslag dan de taken zonder, een verschil dat niet alleen tegengesteld is aan de verwachtingen van de deelnemers, maar ook in strijd is met de voorspellingen van externe experts uit de economie (-39%) en machine learning (-38%).
Meerdere verklaringen
METR identificeert vijf hoofdfactoren die deze vertraging kunnen verklaren:
- Een onvolmaakt gebruik van de tools, met name te eenvoudige prompts;
- Een nog beperkte vertrouwdheid met AI-interfaces zoals Cursor;
- Hoge kwaliteitsnormen in de bestudeerde projecten, soms onverenigbaar met de gegenereerde suggesties;
- Een onvoldoende dekking van complexe gevallen door de modellen;
- Een vorm van cognitieve afleiding gerelateerd aan het experimenteren met AI.
Andere hypothesen, zoals meetfouten of methodologische gebreken, zijn door de analyse uitgesloten.
Verre van concluderen dat AI de prestaties van alle ontwikkelaars in alle contexten schaadt, benadrukt de studie vooral dat de productiviteitswinst niet onmiddellijk of automatisch is: het hangt af van een fijne afstemming tussen tool, taak en professionele context.