TLDR : Uno studio METR evidenzia che l'IA può rallentare gli sviluppatori esperti invece di accelerarli, sfidando le aspettative comuni sulla sua efficacia.
Sommario
E se l'IA non mantenesse ancora le sue promesse di aumenti di produttività? Uno studio sperimentale condotto dal laboratorio indipendente METR (Model Evaluation and Transparency Research) nel primo semestre del 2025 sconvolge le certezze. Testati in condizioni reali su repository open source che conoscono bene, sviluppatori esperti sono stati in media il 19% più lenti quando utilizzavano strumenti di IA generativa rispetto a quando ne facevano a meno. Una controprestazione inaspettata, tanto più sorprendente poiché gli stessi partecipanti credevano erroneamente che l'IA li avesse aiutati ad andare più veloce.
I benchmark tradizionali, come SWE-Bench Verified o RE-Bench, hanno permesso di misurare la rapida progressione dei modelli di IA. Ma queste valutazioni sono spesso decontestualizzate: si concentrano su compiti isolati, standardizzati, valutati automaticamente, spesso lontani dalle esigenze pratiche e dai vincoli impliciti del lavoro software quotidiano.
Per trarre conclusioni affidabili sull'impatto reale dell'IA generativa nello sviluppo software, METR ha reclutato 16 sviluppatori con diverse decine a centinaia di ore di esperienza con i modelli di linguaggio e che contribuiscono in media da cinque anni a progetti open source maturi (22.000 stelle su GitHub, oltre un milione di righe di codice).
La metodologia del suo studio controllato randomizzato (ECR) si basa su un principio semplice: autorizzare o meno l'uso dell'IA, (principalmente Cursor Pro con Claude 3.5/3.7), casualmente, su un insieme di 246 problemi tecnici che fanno parte della loro quotidianità professionale (bug, refactoring, miglioramento delle funzionalità), quindi misurare il tempo di risoluzione.
I tempi di lavoro sono stati auto-dichiarati e completati da registrazioni dello schermo. I deliverable sono stati valutati qualitativamente, attraverso le Pull Request presentate.
Uno scarto tra percezione e realtà
Nonostante la loro esperienza, gli sviluppatori prevedevano un'accelerazione del 24% grazie all'IA. Al termine dell'esperimento, questa stima è leggermente diminuita, ma è rimasta ottimista: 20% di guadagno di tempo percepito.
In realtà, i compiti svolti con l'aiuto dell'IA hanno impiegato in media il 19% di tempo in più rispetto a quelli svolti senza, un divario non solo inverso rispetto alle aspettative dei partecipanti, ma anche contrario alle previsioni formulate da esperti esterni provenienti dai campi dell'economia (-39%) e del machine learning (-38%).
Spiegazioni multiple
METR identifica cinque fattori principali che potrebbero spiegare questo rallentamento:
- Un uso imperfetto degli strumenti, in particolare prompt troppo semplici;
- Una familiarità ancora limitata con le interfacce IA come Cursor;
- Standard di qualità elevati nei progetti studiati, talvolta incompatibili con i suggerimenti generati;
- Una copertura insufficiente dei casi complessi da parte dei modelli;
- Una forma di distrazione cognitiva legata alla sperimentazione con l'IA.
Altre ipotesi, in particolare errori di misurazione o difetti di metodologia, sono state escluse dall'analisi.
Lontano dal concludere che l'IA nuoce alla performance di tutti gli sviluppatori in tutti i contesti, lo studio sottolinea soprattutto che il guadagno di produttività non è immediato né automatico: dipende da un adeguato aggiustamento tra strumento, compito e contesto professionale