TLDR : دراسة METR: الذكاء الاصطناعي قد يبطئ المطورين ذوي الخبرة بنسبة 19% في المتوسط، خلافاً للتوقعات.
المحتوى
ماذا لو لم يحقق الذكاء الاصطناعي وعوده بزيادة الإنتاجية بعد؟ أظهرت دراسة تجريبية أجراها مختبر METR (Model Evaluation and Transparency Research) المستقل في النصف الأول من عام 2025 أن الذكاء الاصطناعي قد يكون غير فعال كما كان يُعتقد. في بيئة عمل حقيقية على مستودعات open source التي يعرفونها جيداً، كان المطورون ذوو الخبرة أبطأ بنسبة 19% في المتوسط عند استخدامهم لأدوات الذكاء الاصطناعي التوليدي مقارنة بعدم استخدامها. أداء مخالف للتوقعات، خاصة أن المشاركين كانوا يعتقدون خطأً أن الذكاء الاصطناعي ساعدهم على العمل بشكل أسرع.
تسمح البنشماركات التقليدية، مثل SWE-Bench Verified أو RE-Bench، بقياس التقدم السريع لنماذج الذكاء الاصطناعي. ولكن هذه التقييمات غالباً ما تكون خارج السياق: فهي تركز على مهام معزولة، موحدة، ومقيمة تلقائياً، وغالباً ما تكون بعيدة عن المتطلبات العملية والقيود الضمنية للعمل البرمجي اليومي.
للحصول على استنتاجات موثوقة حول التأثير الحقيقي للذكاء الاصطناعي التوليدي على تطوير البرمجيات، قامت METR بتوظيف 16 مطوراً لديهم عشرات إلى مئات الساعات من الخبرة مع نماذج اللغة ويساهمون في المتوسط منذ خمس سنوات في مشاريع open source ناضجة (22,000 نجمة على GitHub، وأكثر من مليون سطر من الكود).
تعتمد منهجية تجربتها العشوائية المحكمة (ECR) على مبدأ بسيط: السماح أو عدم السماح باستخدام الذكاء الاصطناعي (خاصة Cursor Pro مع Claude 3.5/3.7) بشكل عشوائي على مجموعة من 246 مشكلة تقنية تشكل جزءاً من عملهم المهني اليومي (أخطاء، إعادة هيكلة، تحسين الميزات)، ثم قياس وقت الحل.
تم إبلاغ أوقات العمل بشكل ذاتي واستكملت بواسطة تسجيلات الشاشة. تم تقييم المنتجات النهائية نوعياً عبر طلبات الدمج المقدمة.
فجوة بين الإدراك والواقع
على الرغم من خبرتهم، توقع المطورون تسريعاً بنسبة 24% بفضل الذكاء الاصطناعي. عند انتهاء التجربة، انخفض هذا التقدير قليلاً، لكنه ظل متفائلاً: 20% من الوقت مقتصد.
في الحقيقة، استغرقت المهام المنفذة بمساعدة الذكاء الاصطناعي وقتاً أطول بنسبة 19% في المتوسط مقارنة بتلك المنفذة بدون مساعدته، وهو فارق لا يتعارض فقط مع توقعات المشاركين، بل أيضاً مع التوقعات التي صاغها خبراء خارجيون من مجالات الاقتصاد (-39%) وتعلم الآلة (-38%).
تفسيرات متعددة
تحدد METR خمسة عوامل رئيسية قد تفسر هذا التباطؤ:
- استخدام غير مثالي للأدوات، خاصة prompts البسيطة جداً؛
- اعتياد محدود بعد على واجهات الذكاء الاصطناعي مثل Cursor؛
- معايير جودة عالية في المشاريع المدروسة، والتي قد تكون غير متوافقة مع الاقتراحات المولدة؛
- تغطية غير كافية للحالات المعقدة من قبل النماذج؛
- نوع من التشتت المعرفي المرتبط بالتجريب مع الذكاء الاصطناعي.
تم استبعاد فرضيات أخرى، بما في ذلك أخطاء القياس أو عيوب منهجية، من خلال التحليل.
بعيداً عن الاستنتاج بأن الذكاء الاصطناعي يضر بأداء جميع المطورين في جميع السياقات، تبرز الدراسة بشكل رئيسي أن زيادة الإنتاجية ليست فورية ولا تلقائية: إنها تعتمد على التكيف الدقيق بين الأداة، المهمة، والسياق المهني