Un studiu METR dezvăluie că IA încetinește dezvoltatorii experimentați

Un studiu METR dezvăluie că IA încetinește dezvoltatorii experimentați

În scurt : Studiul METR arată că dezvoltatorii experimentați sunt cu 19% mai lenți folosind IA generativă, contrar așteptărilor lor și a predicțiilor experților.

Și dacă IA nu își îndeplinește încă promisiunile de câștiguri de productivitate? Un studiu experimental realizat de laboratorul independent METR (Model Evaluation and Transparency Research) în primul semestru al anului 2025 zguduie certitudinile. Testați în condiții reale pe depozite open source pe care le cunosc bine, dezvoltatorii experimentați au fost în medie cu 19% mai lenți atunci când utilizau instrumente de IA generativă decât atunci când nu le foloseau. O contraperformanță neașteptată, cu atât mai izbitoare cu cât participanții înșiși estimau, greșit, că IA i-a ajutat să meargă mai repede.
Benchmarks-urile tradiționale, cum ar fi SWE-Bench Verified sau RE-Bench, au permis măsurarea progresului rapid al modelelor de IA. Dar aceste evaluări sunt adesea decontextualizate: ele se concentrează pe sarcini izolate, normalizate, evaluate automat, de multe ori departe de cerințele practice și constrângerile implicite ale muncii software zilnice.
Pentru a trage concluzii fiabile asupra impactului real al IA generative asupra dezvoltării software, METR a recrutat 16 dezvoltatori cu zeci până la sute de ore de experiență cu modelele de limbaj și care contribuie în medie de cinci ani la proiecte open source mature (22.000 de stele GitHub, peste un milion de linii de cod).  
Metodologia sa de studiu controlat randomizat (ECR) se bazează pe un principiu simplu: a permite sau nu utilizarea IA (în principal Cursor Pro cu Claude 3.5/3.7), aleatoriu, pe un set de 246 de probleme tehnice care fac parte din cotidianul lor profesional (bug-uri, refactoring, îmbunătățirea funcționalităților), apoi a măsura timpul de rezolvare.
Timpurile de lucru au fost auto-declarate și completate de înregistrări de ecran. Livrabilele au fost evaluate calitativ, prin intermediul Pull Requests depuse.

Un decalaj între percepție și realitate

În ciuda experienței lor, dezvoltatorii anticipau o accelerare de 24% datorită IA. La finalul experimentului, această estimare a scăzut oarecum, dar a rămas optimistă: 20% câștig de timp perceput.
În realitate, sarcinile realizate cu ajutorul IA au durat în medie cu 19% mai mult decât cele realizate fără, un decalaj nu doar invers anticipărilor participanților, ci și contrar previziunilor formulate de experți externi din domeniile economiei (-39%) și machine learning (-38%).

Explicații multiple

METR identifică cinci factori principali susceptibili să explice această încetinire:
  • O utilizare imperfectă a instrumentelor, în special prompturi prea simple;
  • O familiarizare încă limitată cu interfețele IA precum Cursor;
  • Standardele de calitate ridicate în proiectele studiate, uneori incompatibile cu sugestiile generate;
  • O acoperire insuficientă a cazurilor complexe de către modele;
  • O formă de distragere cognitivă legată de experimentarea cu IA.
Alte ipoteze, inclusiv erori de măsură sau defecte de metodologie, au fost eliminate prin analiză.
Departe de a concluziona că IA dăunează performanței tuturor dezvoltatorilor în toate contextele, studiul subliniază în special că câștigul de productivitate nu este imediat sau automat: depinde de o ajustare fină între instrument, sarcină și context profesional