Bir METR Araştırması, Yapay Zekanın Deneyimli Geliştiricileri Yavaşlattığını Ortaya Koyuyor

Bir METR Araştırması, Yapay Zekanın Deneyimli Geliştiricileri Yavaşlattığını Ortaya Koyuyor

Kısa : METR'nin çalışması, yapay zekanın deneyimli geliştiricileri yavaşlattığını gösteriyor. Araştırma, yapay zekâ araçlarının kullanımının verimlilik kazançlarının anında olmadığını vurguluyor.

Yapay zekanın verimlilik kazançları vaatlerini henüz yerine getirmediği bir senaryo mümkün mü? Bağımsız laboratuvar METR (Model Değerlendirme ve Şeffaflık Araştırması) tarafından 2025'in ilk yarısında yürütülen deneysel bir çalışma, kesinlikleri altüst ediyor. İyi bildikleri açık kaynak depolarında gerçek koşullar altında test edilen deneyimli geliştiriciler, yapay zekâ destekli araçları kullanırken, kullanmadıkları duruma göre ortalama %19 daha yavaş oldular. Katılımcıların, yapay zekânın onları daha hızlı hale getirdiğine yanlış bir şekilde inanmaları bu beklenmedik performans düşüşünü daha da çarpıcı hale getiriyor.
Geleneksel kıyaslamalar, SWE-Bench Verified veya RE-Bench gibi, yapay zekâ modellerinin hızlı ilerlemesini ölçmeye olanak tanıdı. Ancak bu değerlendirmeler genellikle bağlamdan kopuktur: Günlük yazılım çalışmalarının pratik gereksinimlerinden ve örtük kısıtlamalardan uzakta, izole edilmiş, standartlaştırılmış ve otomatik olarak değerlendirilen görevler üzerine yoğunlaşırlar.
Yapay zekâ ile yazılım geliştirme üzerindeki gerçek etkiyi güvenilir bir şekilde değerlendirmek için, METR, dil modelleriyle yüzlerce saat deneyime sahip ve ortalama beş yıldır olgun açık kaynak projelerine katkıda bulunan (22.000 GitHub yıldızı, bir milyondan fazla kod satırı) 16 geliştirici işe aldı.  
Rastgele kontrollü deneyinin (RKD) metodolojisi basit bir prensibe dayanıyordu: Günlük yaşamlarının bir parçası olan 246 teknik sorun (hatalar, yeniden yapılandırmalar, özellik iyileştirmeleri) üzerinde, yapay zeka kullanımına (esas olarak Cursor Pro ile Claude 3.5/3.7) izin vermek veya vermemek ve çözüm süresini ölçmek.
Çalışma süreleri öz-beyanlarla ve ekran kayıtlarıyla tamamlandı. Teslimatlar, gönderilen Çekme İstekleri aracılığıyla niteliksel olarak değerlendirildi.

Algı ile Gerçeklik Arasındaki Fark

Deneyimlerine rağmen, geliştiriciler yapay zeka sayesinde %24'lük bir hızlanma bekliyorlardı. Deneyin sonunda bu tahmin biraz düşse de, hala iyimserdi: Algılanan %20 zaman tasarrufu.
Gerçekte, yapay zekâ yardımıyla gerçekleştirilen görevler, yardımsız olanlardan ortalama %19 daha uzun sürdü; bu sadece katılımcıların beklentilerine ters değil, aynı zamanda ekonomi (%-39) ve makine öğrenimi (%-38) alanlarından gelen dış uzmanların tahminlerine de tersti.

Çoklu Açıklamalar

METR, bu yavaşlamayı açıklayabilecek beş ana faktör tanımlıyor:
  • Araçların kusurlu kullanımı, özellikle çok basit komutlar;
  • Cursor gibi yapay zeka arayüzleriyle hala sınırlı aşinalık;
  • Çalışılan projelerdeki yüksek kalite standartları, bazen üretilen önerilerle uyumsuzluk gösteriyor;
  • Modellerin karmaşık vakaları yeterince kapsamaması;
  • Yapay zekâ ile deney yapmaya bağlı bilişsel bir dikkat dağınıklığı.
Ölçüm hataları veya metodolojik kusurlar gibi diğer varsayımlar, analizle saf dışı bırakıldı.
Yapay zekanın her bağlamda tüm geliştiricilerin performansına zarar verdiği sonucuna varmak yerine, çalışma esasen verimlilik kazancının anında veya otomatik olmadığını vurguluyor: Araç, görev ve profesyonel bağlam arasında ince bir uyum gerektiriyor.