Publikacja naukowa

Badanie METR ujawnia, że AI spowalnia doświadczonych deweloperów

Badanie METR ujawnia, że AI spowalnia doświadczonych deweloperów, kwestionując pewniki dotyczące wzrostu produktywności. Testy wykazały, że użytkowanie narzędzi AI generatywnej powoduje wolniejsze tempo pracy o 19%.

MAMarie-Claude Benoit · ·2 min
Badanie METR ujawnia, że AI spowalnia doświadczonych deweloperów
Spis treści
A co jeśli AI jeszcze nie spełnia obietnic dotyczących wzrostu produktywności?  Eksperymentalne badanie przeprowadzone przez niezależne laboratorium METR (Model Evaluation and Transparency Research) w pierwszej połowie 2025 roku kwestionuje pewniki. Testowani w rzeczywistych warunkach na znanych im repozytoriach open source, doświadczeni deweloperzy byli średnio o 19% wolniejsi gdy korzystali z narzędzi AI generatywnej niż gdy ich nie używali. Niespodziewany wynik, tym bardziej uderzający, że sami uczestnicy błędnie oceniali, że AI pomogła im przyspieszyć.
 
Tradycyjne benchmarki, takie jak SWE-Bench Verified czy RE-Bench, pozwoliły zmierzyć szybki rozwój modeli AI. Jednak te oceny są często wyjęte z kontekstu: koncentrują się na odizolowanych, znormalizowanych zadaniach, ocenianych automatycznie, często dalekich od praktycznych wymagań i ukrytych ograniczeń codziennej pracy deweloperskiej.
Aby wyciągnąć wiarygodne wnioski na temat rzeczywistego wpływu AI generatywnej na rozwój oprogramowania, METR zrekrutował 16 deweloperów mających od kilkudziesięciu do setek godzin doświadczenia z modelami językowymi i przeciętnie od pięciu lat przyczyniających się do dojrzałych projektów open source (22 000 gwiazdek GitHub, ponad milion linii kodu).  
Metodologia ich randomizowanego badania kontrolowanego (ECR) opiera się na prostym założeniu: zezwalać lub nie na użycie AI (głównie Cursor Pro z Claude 3.5/3.7), losowo, w zestawie 246 problemów technicznych będących częścią ich codziennej pracy (błędy, refaktoryzacje, ulepszanie funkcji), a następnie mierzyć czas rozwiązania.
Czasy pracy były autodeklarowane i uzupełniane nagraniami ekranu. Wyniki były oceniane jakościowo poprzez Pull Requesty zgłaszane przez uczestników.
 

Różnica między postrzeganiem a rzeczywistością

 
Mimo swojego doświadczenia, deweloperzy spodziewali się przyspieszenia o 24% dzięki AI. Po zakończeniu eksperymentu, ta ocena nieco spadła, ale nadal pozostawała optymistyczna: 20% oszczędności czasu postrzeganego.
W rzeczywistości zadania realizowane z pomocą AI zajęły średnio 19% więcej czasu niż te realizowane bez, różnica nie tylko odwrotna do oczekiwań uczestników, ale także sprzeczna z prognozami formułowanymi przez zewnętrznych ekspertów z dziedzin ekonomii (−39%) i uczenia maszynowego (−38%).

Wielorakie wyjaśnienia

METR wskazuje pięć głównych czynników mogących wyjaśniać to spowolnienie :
  • Niedoskonałe użycie narzędzi, w tym zbyt proste pytania;
  • Ograniczona jeszcze znajomość interfejsów AI takich jak Cursor;
  • Wysokie standardy jakości w badanych projektach, czasami niekompatybilne z generowanymi sugestiami;
  • Niewystarczające pokrycie złożonych przypadków przez modele;
  • Forma rozproszenia poznawczego związana z eksperymentowaniem z AI.
Inne hipotezy, w tym błędy pomiaru lub wady metodologii, zostały odrzucone przez analizę.
Dalekie od stwierdzenia, że AI szkodzi wydajności wszystkich deweloperów we wszystkich kontekstach, badanie podkreśla przede wszystkim, że zysk z produktywności nie jest natychmiastowy ani automatyczny: zależy on od precyzyjnego dostosowania między narzędziem, zadaniem a kontekstem zawodowym
MA
Marie-Claude Benoit

Redakcja ActuIA — wiadomości, dane i analizy o sztucznej inteligencji dla decydentów.

Wymienieni uczestnicy
MEMETR (Model Evaluation and Transparency Research)
GIGithub
Tygodnik ActuIA

Subskrypcja potwierdzona, do zobaczenia!