Un estudio de METR revela que la IA ralentiza a los desarrolladores experimentados

Un estudio de METR revela que la IA ralentiza a los desarrolladores experimentados

TLDR : Un estudio de METR revela que la IA generativa ralentiza a los desarrolladores experimentados, desafiando la expectativa de que aumentaría la productividad.

¿Y si la IA aún no cumple sus promesas de aumento de productividad? Un estudio experimental realizado por el laboratorio independiente METR (Model Evaluation and Transparency Research) en el primer semestre de 2025 desafía las certezas. Probados en condiciones reales en repositorios de código abierto que conocen bien, los desarrolladores experimentados fueron en promedio un 19% más lentos cuando usaban herramientas de IA generativa que cuando no lo hacían. Un rendimiento inesperado, especialmente impactante porque los propios participantes creían erróneamente que la IA les había ayudado a ir más rápido.
Los benchmarks tradicionales, como SWE-Bench Verified o RE-Bench, han permitido medir el rápido progreso de los modelos de IA. Pero estas evaluaciones a menudo están descontextualizadas: se centran en tareas aisladas, estandarizadas, evaluadas automáticamente, a menudo lejos de las exigencias prácticas y las restricciones implícitas del trabajo diario en software.
Para obtener conclusiones fiables sobre el impacto real de la IA generativa en el desarrollo de software, METR reclutó a 16 desarrolladores con varias decenas a cientos de horas de experiencia con los modelos de lenguaje y que contribuyen en promedio desde hace cinco años a proyectos de código abierto maduros (22,000 estrellas en GitHub, más de un millón de líneas de código).
La metodología de su ensayo controlado aleatorizado (ECA) se basa en un principio simple: permitir o no el uso de la IA, (principalmente Cursor Pro con Claude 3.5/3.7), aleatoriamente, en un conjunto de 246 problemas técnicos que forman parte de su rutina profesional (errores, refactorización, mejora de funcionalidades), y luego medir el tiempo de resolución.
Los tiempos de trabajo fueron autodeclarados y complementados por grabaciones de pantalla. Los entregables fueron evaluados cualitativamente, a través de las Pull Requests presentadas.

Un desfase entre percepción y realidad

A pesar de su experiencia, los desarrolladores anticipaban una aceleración del 24% gracias a la IA. Al final del experimento, esta estimación disminuyó un poco, pero seguía siendo optimista: 20% de ahorro de tiempo percibido.
En realidad, las tareas realizadas con la ayuda de la IA tomaron en promedio un 19% más de tiempo que aquellas realizadas sin ella, una diferencia no solo inversa a las expectativas de los participantes, sino también contraria a las previsiones formuladas por expertos externos de los campos de la economía (-39%) y el aprendizaje automático (-38%).

Explicaciones múltiples

METR identifica cinco factores principales que podrían explicar este retraso:
  • Un uso imperfecto de las herramientas, especialmente con prompts demasiado simples;
  • Una familiaridad aún limitada con las interfaces de IA como Cursor;
  • Estándares de calidad elevados en los proyectos estudiados, a veces incompatibles con las sugerencias generadas;
  • Una cobertura insuficiente de casos complejos por parte de los modelos;
  • Una forma de distracción cognitiva relacionada con la experimentación con la IA.
Otras hipótesis, como errores de medición o defectos de metodología, han sido descartadas por el análisis.
Lejos de concluir que la IA perjudica el rendimiento de todos los desarrolladores en todos los contextos, el estudio destaca principalmente que el aumento de productividad no es inmediato ni automático: depende de un ajuste fino entre la herramienta, la tarea y el contexto profesional.