Зміст
Впевненість, яку демонструють GPT-4o, ChatGPT і GPT-o3, перевищує їхню фактичну точність, і розрив зростає саме на складних завданнях - навпаки, на легких завданнях моделі недооцінюють свої можливості. Цей ефект hard-easy, кількісно визначений у препринті, що перебуває на розгляді ACL і опублікований на arXiv 3 квітня 2026 року, безпосередньо впливає на людський нагляд, передбачений статтею 14(4)(b) AI Act: сигнал впевненості, який генерує модель, є найменш надійним саме там, де наглядач найбільше його потребував би. Автори - Ноам Майкл, Даніель БенШушан, Джейкоб Бін і Дон А. Мур, USC Marshall School of Business і UC Berkeley Haas School of Business - повідомляють про попередньо зареєстрований протокол, гіпотези та методологію, заявлені до збору даних, що посилює емпіричну значимість результату на протестованому периметрі (GPT-4o, ChatGPT та GPT-o3).
Сигнал впевненості є найменш надійним саме там, де наглядач найбільше його потребує.
Ефект hard-easy виміряний на GPT-4o, ChatGPT та GPT-o3 за допомогою LifeEval - попередньо зареєстрований протокол, arXiv:2605.23909, v1 від 3 квітня 2026 року
Бенчмарк LifeEval і кількісна оцінка ефекту hard-easy
Для отримання цього результату автори створили власний тестовий стенд, LifeEval, представлений (вільний переклад) як тест, призначений для оцінки калібрування моделей на різних рівнях складності. На всьому наборі максимальний досяжний середній бал (Mean Accuracy Score) складає 56,80 %. Звітуються чотири метрики: Mean Score, Expected Calibration Error (ECE), Mean Confidence, і регресійний коефіцієнт, що пов'язує складність і надмірну впевненість. Цей останній коефіцієнт має емпіричний підпис ефекту hard-easy: надмірна впевненість є найсильнішою на складних тестах, тоді як легкі тести викликають значну недовіру. Співавтор, відповідальний за психологічну основу, Дон А. Мур, професор Haas School of Business і власник Lorraine Tyson Mitchell Chair in Leadership and Communication, автор референційної роботи на цю тему («The Trouble With Overconfidence», Psychological Review, 2008). Методолічний застереження залишається: порівняння з людським упередженням - формула «like people» використана в анотації - базується на аналогії, методологія якої на цьому етапі не уточнена. Перенесення людського ефекту hard-easy на LLM залишається обговорюваним: Juslin, Winman і Olsson (Psychological Review, 2000) показали, що ефект майже повністю зникає у людей після контролю артефактів вибору предметів, і питання, чи спостережуваний механізм на стороні моделі є аналогічним або базується на інших причинах, залишається відкритим.
Периметр, який не варто екстраполювати
Документ arXiv:2605.23909 є препринтом під розглядом ACL (v1, 3 квітня 2026 року): результати ще не підтверджені рецензентами. LifeEval охоплює GPT-4o, ChatGPT і GPT-o3 - висновки не застосовуються механічно до інших сімейств моделей. Попередньо зареєстрований протокол підсилює внутрішню значимість, але не розширює зовнішнє охоплення. Однак інтенсивний темп впровадження наступних версій змушує відносити висновок.
Конвергентний набір результатів 2026 року
Документ USC/Berkeley не є ізольованим. Три інші недавні дослідження документують ту ж саму неправильну калібровку на різних периметрах. Судіпта Гош і Мріт'юнджой Пандай (Cognizant) опублікували в лютому 2026 року емпіричне дослідження ефекту «Dunning-Kruger» у LLM, яке охоплює 24 000 випробувань на чотирьох моделях. Kimi K2 має Expected Calibration Error 0,726 при точності лише 23,3 %, тоді як Claude Haiku 4.5 досягає найкращої виміряної калібровки (ECE 0,122) при точності 75,4 %. Найменш продуктивні моделі є найконфіденційнішими. У медичній сфері, npj Gut and Liver, журнал з портфеля Nature, опублікував 5 лютого 2026 року оцінку 48 LLM, протестованих з 300 питань гастроентерології: незалежно від рівня точності, всі моделі демонструють погану оцінку власної впевненості. Команда Johns Hopkins / MIT / Microsoft Healthcare продовжує цей висновок у візуальних відповідях на медичні запитання (VQA, visual question answering) (arXiv:2604.02543): моделі зберігають високу впевненість, навіть коли вони створюють галюцинації. Шаблон тепер документований на чотирьох незалежних методологічних сімействах.
Взаємодія зі статтею 14(4)(b) AI Act
Європейський календар надає цьому набору результатів оперативну значимість з датами. Стаття 14 AI Act, застосування якої було спочатку заплановане на 2 серпня 2026 року, відстрочена на 2 грудня 2027 року за тимчасовою політичною угодою Digital Omnibus on AI від 7 травня 2026 року - застережено формальним прийняттям законодавцями. Її абзац (4)(b) вимагає, щоб фізичні особи, відповідальні за людський нагляд системи ІІ високого ризику, могли залишатися свідомими схильності покладатися або надмірно покладатися автоматично на вихідні дані системи («автоматизаційне упередження»), особливо для систем, які використовуються для надання інформації або рекомендацій для прийняття рішень фізичними особами (вільний переклад). Механічний зв'язок з ефектом hard-easy є прямим: впевненість моделей досягає піку саме там, де вони найчастіше помиляються, тобто в зоні, де людський наглядач має найменш надійний сигнал для виявлення помилки. Технічне рішення документовано - THERMOMETER (Шен та ін., MIT/IBM, ICML 2024) пропонує пост-хок калібрування для багатозадачності, але зобов'язання статті 14(4)(b) залишається організаційною вимогою, що покладається на розгортача, незалежно від прогресу в калібруванні з боку моделі. Для європейського B2B покупця, що використовує LLM для прийняття рішень у медичних, рекрутингових або кредитних оцінках - використання, покриті Додатком III регламенту -, критерій відбору змінюється: недостатньо просто порівнювати відображені точності, система та її інтерфейс також повинні дозволяти людському наглядачу модалізувати довіру, що генерується моделлю.
