Et si l’IA ne tenait pas encore ses promesses de gains de productivité ?  Une étude expérimentale menée par le laboratoire indépendant METR (Model Evaluation and Transparency Research) au premier semestre 2025 bouscule les certitudes. Testés dans des conditions réelles sur des dépôts open source qu’ils connaissent bien, des développeurs chevronnés ont été en moyenne 19 % plus lents lorsqu’ils utilisaient des outils d’IA générative que lorsqu’ils s’en passaient. Une contre-performance inattendue, d’autant plus frappante que les participants eux-mêmes estimaient, à tort, que l’IA les avait aidés à aller plus vite.

Les benchmarks traditionnels, tels que SWE-Bench Verified ou RE-Bench, ont permis de mesurer la progression rapide des modèles d'IA. Mais ces évaluations sont souvent décontextualisées : elles se concentrent sur des tâches isolées, normalisées, évaluées automatiquement, souvent loin des exigences pratiques et des contraintes implicites du travail logiciel quotidien.
Pour tirer des conclusions fiables sur l’impact réel de l’IA générative sur le développement logiciel, METR a recruté 16 développeurs ayant plusieurs dizaines à centaines d’heures d’expérience avec les modèles de langage et contribuant en moyenne depuis cinq ans à des projets open source matures (22 000 étoiles GitHub, plus d’un million de lignes de code).  
La méthodologie de son essai contrôlé randomisé (ECR) repose sur un principe simple : autoriser ou non l’usage de l’IA, (principalement Cursor Pro avec Claude 3.5/3.7), aléatoirement, sur un ensemble de 246 problèmes techniques qui font partie de leur quotidien professionnel (bugs, refactorings, amélioration de fonctionnalités), puis mesurer le temps de résolution.
Les temps de travail ont été auto-déclarés et complétés par des enregistrements d’écran. Les livrables ont été évalués qualitativement, à travers les Pull Requests soumises.

Un décalage entre perception et réalité

Malgré leur expérience, les développeurs anticipaient une accélération de 24 % grâce à l’IA. À l’issue de l’expérimentation, cette estimation a quelque peu baissé, mais restait optimiste : 20 % de gain de temps perçu.
En réalité, les tâches réalisées avec l’aide de l’IA ont pris en moyenne 19 % de temps en plus que celles réalisées sans, un écart non seulement inverse aux anticipations des participants, mais également contraire aux prévisions formulées par des experts extérieurs issus des champs de l’économie (−39 %) et du machine learning (−38 %).

Des explications multiples

METR identifie cinq facteurs principaux susceptibles d’expliquer ce ralentissement :
  • Un usage imparfait des outils, notamment des prompts trop simples ;
  • Une familiarité encore limitée avec les interfaces IA comme Cursor ;
  • Des standards de qualité élevés dans les projets étudiés, parfois incompatibles avec les suggestions générées ;
  • Une couverture insuffisante des cas complexes par les modèles ;
  • Une forme de distraction cognitive liée à l’expérimentation avec l’IA.
D’autres hypothèses, notamment des erreurs de mesure ou des défauts de méthodologie, ont été écartées par l’analyse.
Loin de conclure que l’IA nuit à la performance de tous les développeurs dans tous les contextes, l'étude souligne surtout que le gain de productivité n’est pas immédiat ni automatique : il dépend d’un ajustement fin entre outil, tâche, et contexte professionnel