Em resumo : O estudo METR revela que desenvolvedores experientes foram 19% mais lentos ao usar IA generativa, desafiando expectativas de produtividade.
Índice
E se a IA ainda não estivesse cumprindo suas promessas de ganhos de produtividade? Um estudo experimental conduzido pelo laboratório independente METR (Model Evaluation and Transparency Research) no primeiro semestre de 2025 abala as certezas. Testados em condições reais em repositórios open source que conhecem bem, desenvolvedores experientes foram em média 19% mais lentos ao usar ferramentas de IA generativa do que quando não as utilizavam. Um desempenho inferior inesperado, ainda mais surpreendente porque os próprios participantes achavam, erroneamente, que a IA os havia ajudado a ser mais rápidos.
Os benchmarks tradicionais, como SWE-Bench Verified ou RE-Bench, permitiram medir o rápido progresso dos modelos de IA. Mas essas avaliações são frequentemente descontextualizadas: concentram-se em tarefas isoladas, padronizadas, avaliadas automaticamente, muitas vezes distante das exigências práticas e das restrições implícitas do trabalho de software diário.
Para tirar conclusões confiáveis sobre o impacto real da IA generativa no desenvolvimento de software, a METR recrutou 16 desenvolvedores com dezenas a centenas de horas de experiência com modelos de linguagem e contribuindo em média por cinco anos para projetos open source maduros (22.000 estrelas no GitHub, mais de um milhão de linhas de código).
A metodologia do seu ensaio controlado randomizado (ECR) baseia-se em um princípio simples: permitir ou não o uso da IA, (principalmente Cursor Pro com Claude 3.5/3.7), aleatoriamente, em um conjunto de 246 problemas técnicos que fazem parte do seu cotidiano profissional (bugs, refatorações, melhorias de funcionalidades), e então medir o tempo de resolução.
Os tempos de trabalho foram auto-declarados e complementados por gravações de tela. Os entregáveis foram avaliados qualitativamente, através dos Pull Requests submetidos.
Uma discrepância entre percepção e realidade
Apesar de sua experiência, os desenvolvedores antecipavam uma aceleração de 24% graças à IA. No final da experimentação, essa estimativa havia diminuído um pouco, mas permanecia otimista: 20% de ganho de tempo percebido.
Na realidade, as tarefas realizadas com a ajuda da IA levaram em média 19% mais tempo do que aquelas realizadas sem, uma diferença não apenas inversa às expectativas dos participantes, mas também contrária às previsões formuladas por especialistas externos dos campos da economia (-39%) e do aprendizado de máquina (-38%).
Explicações múltiplas
A METR identifica cinco fatores principais que podem explicar essa desaceleração:
- Um uso imperfeito das ferramentas, especialmente prompts muito simples;
- Uma familiaridade ainda limitada com as interfaces de IA como Cursor;
- Padrões de qualidade elevados nos projetos estudados, às vezes incompatíveis com as sugestões geradas;
- Uma cobertura insuficiente dos casos complexos pelos modelos;
- Uma forma de distração cognitiva relacionada à experimentação com a IA.
Outras hipóteses, incluindo erros de medição ou falhas de metodologia, foram descartadas pela análise.
Longe de concluir que a IA prejudica o desempenho de todos os desenvolvedores em todos os contextos, o estudo destaca principalmente que o ganho de produtividade não é imediato nem automático: depende de um ajuste fino entre ferramenta, tarefa e contexto profissional