У короткому : Дослідження METR показує, що генеративний ІІ сповільнює розробників, всупереч очікуванням. Завдання з ІІ займали на 19 % більше часу, ніж без нього.
Зміст
А що як ІІ ще не виправдовує своїх обіцянок щодо підвищення продуктивності? Експериментальне дослідження, проведене незалежною лабораторією METR (Model Evaluation and Transparency Research) у першій половині 2025 року, ставить під сумнів деякі переконання. Випробувані в реальних умовах на open source проектах, які вони добре знають, досвідчені розробники були в середньому на 19 % повільнішими, коли використовували інструменти генеративного ІІ, ніж коли обходилися без них. Несподіваний результат, тим більше вражаючий, оскільки самі учасники помилково вважали, що ІІ допоміг їм працювати швидше.
Традиційні бенчмарки, такі як SWE-Bench Verified або RE-Bench, дозволили виміряти швидкий прогрес моделей ІІ. Але ці оцінки часто є деконтекстуалізованими: вони зосереджені на ізольованих, стандартизованих завданнях, які оцінюються автоматично, часто далеко від практичних вимог і неявних обмежень щоденного програмного забезпечення.
Щоб отримати надійні висновки про реальний вплив генеративного ІІ на розробку програмного забезпечення, METR залучив 16 розробників, які мають від декількох десятків до сотень годин досвіду з мовними моделями і в середньому протягом п'яти років працюють над зрілими open source проектами (22 000 зірок GitHub, понад мільйон рядків коду).
Методологія їхнього рандомізованого контрольованого випробування (RCT) базується на простому принципі: дозволяти чи ні використання ІІ (переважно Cursor Pro з Claude 3.5/3.7) випадковим чином на наборі з 246 технічних завдань, які є частиною їхньої професійної рутини (баги, рефакторінги, покращення функціональності) і потім вимірювати час вирішення.
Час роботи був самозадекларованим і доповнювався записами екрану. Результати оцінювалися якісно, через подані Pull Requests.
Розбіжність між сприйняттям і реальністю
Незважаючи на свій досвід, розробники очікували прискорення на 24 % завдяки ІІ. Після експерименту ця оцінка трохи знизилася, але залишалася оптимістичною: 20 % очікуваного заощадження часу.
Насправді, завдання, виконані з допомогою ІІ, займали в середньому на 19 % більше часу, ніж ті, що виконувалися без нього, що було не тільки протилежним очікуванням учасників, але й суперечило прогнозам, зробленим зовнішніми експертами з економіки (-39 %) та машинного навчання (-38 %).
Кілька пояснень
METR виявляє п'ять основних факторів, які можуть пояснити це уповільнення:
- Недосконале використання інструментів, зокрема занадто прості запити;
- Ще обмежене знайомство з ІІ-інтерфейсами, такими як Cursor;
- Високі стандарти якості в досліджуваних проектах, які іноді несумісні з генерованими пропозиціями;
- Недостатнє покриття складних випадків моделями;
- Форма когнітивної відволікання, пов'язана з експериментуванням з ІІ.
Інші гіпотези, зокрема помилки вимірювання або недоліки методології, були виключені аналізом.
Далеко від висновку, що ІІ шкодить продуктивності всіх розробників у всіх контекстах, дослідження підкреслює, що підвищення продуктивності не є миттєвим чи автоматичним: воно залежить від точного налаштування між інструментом, завданням і професійним контекстом