W skrócie : Badanie METR pokazuje, że AI spowalnia doświadczonych deweloperów, mimo że oczekiwali przyspieszenia pracy.
Podsumowanie
A co jeśli AI jeszcze nie spełnia obietnic dotyczących wzrostu produktywności? Eksperymentalne badanie przeprowadzone przez niezależne laboratorium METR (Model Evaluation and Transparency Research) w pierwszej połowie 2025 roku kwestionuje pewniki. Testowani w rzeczywistych warunkach na znanych im repozytoriach open source, doświadczeni deweloperzy byli średnio o 19% wolniejsi gdy korzystali z narzędzi AI generatywnej niż gdy ich nie używali. Niespodziewany wynik, tym bardziej uderzający, że sami uczestnicy błędnie oceniali, że AI pomogła im przyspieszyć.
Tradycyjne benchmarki, takie jak SWE-Bench Verified czy RE-Bench, pozwoliły zmierzyć szybki rozwój modeli AI. Jednak te oceny są często wyjęte z kontekstu: koncentrują się na odizolowanych, znormalizowanych zadaniach, ocenianych automatycznie, często dalekich od praktycznych wymagań i ukrytych ograniczeń codziennej pracy deweloperskiej.
Aby wyciągnąć wiarygodne wnioski na temat rzeczywistego wpływu AI generatywnej na rozwój oprogramowania, METR zrekrutował 16 deweloperów mających od kilkudziesięciu do setek godzin doświadczenia z modelami językowymi i przeciętnie od pięciu lat przyczyniających się do dojrzałych projektów open source (22 000 gwiazdek GitHub, ponad milion linii kodu).
Metodologia ich randomizowanego badania kontrolowanego (ECR) opiera się na prostym założeniu: zezwalać lub nie na użycie AI (głównie Cursor Pro z Claude 3.5/3.7), losowo, w zestawie 246 problemów technicznych będących częścią ich codziennej pracy (błędy, refaktoryzacje, ulepszanie funkcji), a następnie mierzyć czas rozwiązania.
Czasy pracy były autodeklarowane i uzupełniane nagraniami ekranu. Wyniki były oceniane jakościowo poprzez Pull Requesty zgłaszane przez uczestników.
Różnica między postrzeganiem a rzeczywistością
Mimo swojego doświadczenia, deweloperzy spodziewali się przyspieszenia o 24% dzięki AI. Po zakończeniu eksperymentu, ta ocena nieco spadła, ale nadal pozostawała optymistyczna: 20% oszczędności czasu postrzeganego.
W rzeczywistości zadania realizowane z pomocą AI zajęły średnio 19% więcej czasu niż te realizowane bez, różnica nie tylko odwrotna do oczekiwań uczestników, ale także sprzeczna z prognozami formułowanymi przez zewnętrznych ekspertów z dziedzin ekonomii (−39%) i uczenia maszynowego (−38%).
Wielorakie wyjaśnienia
METR wskazuje pięć głównych czynników mogących wyjaśniać to spowolnienie :
- Niedoskonałe użycie narzędzi, w tym zbyt proste pytania;
- Ograniczona jeszcze znajomość interfejsów AI takich jak Cursor;
- Wysokie standardy jakości w badanych projektach, czasami niekompatybilne z generowanymi sugestiami;
- Niewystarczające pokrycie złożonych przypadków przez modele;
- Forma rozproszenia poznawczego związana z eksperymentowaniem z AI.
Inne hipotezy, w tym błędy pomiaru lub wady metodologii, zostały odrzucone przez analizę.
Dalekie od stwierdzenia, że AI szkodzi wydajności wszystkich deweloperów we wszystkich kontekstach, badanie podkreśla przede wszystkim, że zysk z produktywności nie jest natychmiastowy ani automatyczny: zależy on od precyzyjnego dostosowania między narzędziem, zadaniem a kontekstem zawodowym