Badanie METR ujawnia, że AI spowalnia doświadczonych deweloperów

A co jeśli AI jeszcze nie spełnia obietnic dotyczących wzrostu produktywności?  Eksperymentalne badanie przeprowadzone przez niezależne laboratorium METR (Model Evaluation and Transparency Research) w pierwszej połowie 2025 roku kwestionuje pewniki. Testowani w rzeczywistych warunkach na znanych im repozytoriach open source, doświadczeni deweloperzy byli średnio o 19% wolniejsi gdy korzystali z narzędzi AI generatywnej niż gdy ich nie używali. Niespodziewany wynik, tym bardziej uderzający, że sami uczestnicy błędnie oceniali, że AI pomogła im przyspieszyć.

Tradycyjne benchmarki, takie jak SWE-Bench Verified czy RE-Bench, pozwoliły zmierzyć szybki rozwój modeli AI. Jednak te oceny są często wyjęte z kontekstu: koncentrują się na odizolowanych, znormalizowanych zadaniach, ocenianych automatycznie, często dalekich od praktycznych wymagań i ukrytych ograniczeń codziennej pracy deweloperskiej.

Aby wyciągnąć wiarygodne wnioski na temat rzeczywistego wpływu AI generatywnej na rozwój oprogramowania, METR zrekrutował 16 deweloperów mających od kilkudziesięciu do setek godzin doświadczenia z modelami językowymi i przeciętnie od pięciu lat przyczyniających się do dojrzałych projektów open source (22 000 gwiazdek GitHub, ponad milion linii kodu).

Metodologia ich randomizowanego badania kontrolowanego (ECR) opiera się na prostym założeniu: zezwalać lub nie na użycie AI (głównie Cursor Pro z Claude 3.5/3.7), losowo, w zestawie 246 problemów technicznych będących częścią ich codziennej pracy (błędy, refaktoryzacje, ulepszanie funkcji), a następnie mierzyć czas rozwiązania.

Czasy pracy były autodeklarowane i uzupełniane nagraniami ekranu. Wyniki były oceniane jakościowo poprzez Pull Requesty zgłaszane przez uczestników.

Różnica między postrzeganiem a rzeczywistością

Mimo swojego doświadczenia, deweloperzy spodziewali się przyspieszenia o 24% dzięki AI. Po zakończeniu eksperymentu, ta ocena nieco spadła, ale nadal pozostawała optymistyczna: 20% oszczędności czasu postrzeganego.

W rzeczywistości zadania realizowane z pomocą AI zajęły średnio 19% więcej czasu niż te realizowane bez, różnica nie tylko odwrotna do oczekiwań uczestników, ale także sprzeczna z prognozami formułowanymi przez zewnętrznych ekspertów z dziedzin ekonomii (−39%) i uczenia maszynowego (−38%).

Wielorakie wyjaśnienia

METR wskazuje pięć głównych czynników mogących wyjaśniać to spowolnienie :

Niedoskonałe użycie narzędzi, w tym zbyt proste pytania;
Ograniczona jeszcze znajomość interfejsów AI takich jak Cursor;
Wysokie standardy jakości w badanych projektach, czasami niekompatybilne z generowanymi sugestiami;
Niewystarczające pokrycie złożonych przypadków przez modele;
Forma rozproszenia poznawczego związana z eksperymentowaniem z AI.

Inne hipotezy, w tym błędy pomiaru lub wady metodologii, zostały odrzucone przez analizę.

Dalekie od stwierdzenia, że AI szkodzi wydajności wszystkich deweloperów we wszystkich kontekstach, badanie podkreśla przede wszystkim, że zysk z produktywności nie jest natychmiastowy ani automatyczny: zależy on od precyzyjnego dostosowania między narzędziem, zadaniem a kontekstem zawodowym

Marie-Claude Benoit

Redakcja ActuIA — wiadomości, dane i analizy o sztucznej inteligencji dla decydentów.

Badanie METR ujawnia, że AI spowalnia doświadczonych deweloperów

Różnica między postrzeganiem a rzeczywistością

Wielorakie wyjaśnienia

Festiwal AI4GOOD: demokratyzacja AI na rzecz młodzieży i zrównoważonego rozwoju

IA dla wszystkich: Grupa IGENSIA Education umieszcza GenAI w centrum swoich programów edukacyjnych

Tryb nauki: OpenAI wyposaża ChatGPT w asystenta edukacyjnego