TLDR : Eine METR-Studie zeigt, dass KI-Tools Entwickler verlangsamen, da sie unter realen Bedingungen im Durchschnitt 19 % mehr Zeit benötigen, als erwartet.
Inhaltsverzeichnis
Was ist, wenn die KI ihre Versprechen von Produktivitätsgewinnen noch nicht einhält? Eine experimentelle Studie des unabhängigen Labors METR (Model Evaluation and Transparency Research), durchgeführt im ersten Halbjahr 2025, erschüttert die Gewissheiten. Erfahrene Entwickler, die unter realen Bedingungen in ihnen gut bekannten Open-Source-Repositories getestet wurden, waren im Durchschnitt 19 % langsamer, wenn sie generative KI-Tools verwendeten, als wenn sie darauf verzichteten. Eine unerwartete Schlechterleistung, umso auffälliger, da die Teilnehmer selbst fälschlicherweise meinten, die KI hätte ihnen geholfen, schneller zu arbeiten.
Traditionelle Benchmarks wie SWE-Bench Verified oder RE-Bench haben es ermöglicht, den schnellen Fortschritt von KI-Modellen zu messen. Doch diese Bewertungen sind oft aus dem Kontext gerissen: Sie konzentrieren sich auf isolierte, standardisierte Aufgaben, die automatisch bewertet werden und oft weit entfernt von den praktischen Anforderungen und impliziten Zwängen der täglichen Softwarearbeit sind.
Um zuverlässige Schlussfolgerungen über den tatsächlichen Einfluss der generativen KI auf die Softwareentwicklung zu ziehen, hat METR 16 Entwickler rekrutiert, die über mehrere Dutzend bis Hunderte von Stunden Erfahrung mit Sprachmodellen verfügen und im Durchschnitt seit fünf Jahren zu ausgereiften Open-Source-Projekten beitragen (22.000 GitHub-Sterne, mehr als eine Million Codezeilen).
Die Methodik ihres randomisierten kontrollierten Versuchs (RCT) basiert auf einem einfachen Prinzip: Die Verwendung von KI (hauptsächlich Cursor Pro mit Claude 3.5/3.7) wird zufällig bei einem Satz von 246 technischen Problemen erlaubt oder nicht (Bugs, Refactorings, Funktionsverbesserungen), die Teil ihres Berufsalltags sind, und dann wird die Lösungszeit gemessen.
Die Arbeitszeiten wurden selbst angegeben und durch Bildschirmaufzeichnungen ergänzt. Die Liefergegenstände wurden qualitativ bewertet, durch die eingereichten Pull-Requests.
Eine Diskrepanz zwischen Wahrnehmung und Realität
Trotz ihrer Erfahrung erwarteten die Entwickler eine Beschleunigung von 24 % dank der KI. Am Ende des Experiments war diese Schätzung etwas gesunken, blieb aber optimistisch: 20 % wahrgenommene Zeitersparnis.
In Wirklichkeit nahmen die mit KI durchgeführten Aufgaben im Durchschnitt 19 % mehr Zeit in Anspruch als die ohne, eine Abweichung, die nicht nur den Erwartungen der Teilnehmer entgegengesetzt ist, sondern auch den Vorhersagen von externen Experten aus den Bereichen Wirtschaft (−39 %) und maschinelles Lernen (−38 %).
Vielfältige Erklärungen
METR identifiziert fünf Hauptfaktoren, die diese Verlangsamung erklären könnten:
- Eine unvollkommene Nutzung der Werkzeuge, insbesondere zu einfache Eingaben (Prompts);
- Eine noch begrenzte Vertrautheit mit den KI-Schnittstellen wie Cursor;
- Hohe Qualitätsstandards in den untersuchten Projekten, die manchmal mit den generierten Vorschlägen unvereinbar sind;
- Eine unzureichende Abdeckung komplexer Fälle durch die Modelle;
- Eine Form der kognitiven Ablenkung, die mit der Experimentierung mit der KI verbunden ist.
Andere Hypothesen, insbesondere Messfehler oder methodische Mängel, wurden durch die Analyse ausgeschlossen.
Die Studie kommt nicht zu dem Schluss, dass KI die Leistung aller Entwickler in allen Kontexten beeinträchtigt, sondern betont vielmehr, dass Produktivitätsgewinne nicht sofort oder automatisch sind: Sie hängen von einer feinen Abstimmung zwischen Werkzeug, Aufgabe und beruflichem Kontext ab.