GPT bardziej pewny siebie w trudnych zadaniach, w których najczęściej się myli, według preprintu USC/Berkeley

GPT bardziej pewny siebie w trudnych zadaniach, w których najczęściej się myli, według preprintu USC/Berkeley

W skrócie : GPT-4o, ChatGPT i GPT-o3 wykazują nadmierną pewność siebie w trudnych zadaniach, gdzie ich precyzja jest niższa, co bezpośrednio wpływa na możliwość skutecznego nadzoru ludzkiego zgodnie z artykułem 14(4)(b) AI Act.

Pewność siebie wykazywana przez GPT-4o, ChatGPT i GPT-o3 przewyższa ich rzeczywistą precyzję, a różnica ta zwiększa się szczególnie w trudnych zadaniach - w przypadku łatwych zadań, modele te zaniżają swoje możliwości. Ten efekt hard-easy, zdefiniowany w preprintcie podlegającym przeglądowi ACL, udostępnionym na arXiv 3 kwietnia 2026, bezpośrednio wpływa na ludzką nadzorczość przewidzianą w artykule 14(4)(b) AI Act: sygnał pewności generowany przez model jest najmniej wiarygodny tam, gdzie nadzorca potrzebuje go najbardziej. Autorzy - Noam Michael, Daniel BenShushan, Jacob Bien i Don A. Moore, USC Marshall School of Business i UC Berkeley Haas School of Business - przedstawiają protokół zarejestrowany przed zbieraniem danych, co wzmacnia empiryczny zakres wyników na testowanym obszarze (GPT-4o, ChatGPT i GPT-o3).

Sygnał pewności jest najmniej wiarygodny tam, gdzie nadzorca potrzebuje go najbardziej.

Efekt hard-easy mierzony na GPT-4o, ChatGPT i GPT-o3 przez LifeEval - protokół zarejestrowany, arXiv:2605.23909, v1 z 3 kwietnia 2026

Benchmark LifeEval i kwantyfikacja efektu hard-easy

Aby uzyskać te wyniki, autorzy stworzyli własny zestaw testowy, LifeEval, opisany (wolne tłumaczenie) jako test zaprojektowany do oceny kalibracji modeli na różnych poziomach trudności. Na całym zbiorze średni maksymalny możliwy do osiągnięcia wynik (Mean Accuracy Score) wynosi 56,80%. Cztery miary są raportowane: Mean Score, Expected Calibration Error (ECE), Mean Confidence oraz współczynnik regresji łączący trudność z nadmierną pewnością siebie. Ten ostatni współczynnik nosi empiryczny podpis efektu hard-easy: nadmierna pewność siebie jest najwyższa w trudnych testach, podczas gdy łatwe testy prowadzą do znacznej niepewności. Współautor odpowiedzialny za psychologiczne zakorzenienie to Don A. Moore, profesor w Haas School of Business i posiadacz Lorraine Tyson Mitchell Chair in Leadership and Communication, autor referencyjny na ten temat („The Trouble With Overconfidence”, Psychological Review, 2008). Pewne zastrzeżenie metodologiczne pozostaje: porównanie z ludzkim błędem - formuła „like people” użyta w abstrakcie - opiera się na analogii, której metodologia porównawcza nie jest jeszcze wyjaśniona. Transpozycja efektu hard-easy na modele językowe LLM pozostaje otwarta: Juslin, Winman i Olsson (Psychological Review, 2000) pokazali, że efekt prawie całkowicie zanika u ludzi po kontrolowaniu selekcji elementów, a pytanie, czy mechanizm obserwowany w modelach jest analogiczny, czy opiera się na innych przyczynach, pozostaje otwarte.

Zakres nie do ekstrapolacji

Artykuł arXiv:2605.23909 jest preprintem podlegającym przeglądowi ACL (v1, 3 kwietnia 2026): wyniki nie są jeszcze zatwierdzone przez komitet redakcyjny. LifeEval obejmuje GPT-4o, ChatGPT i GPT-o3 - wnioski nie dotyczą automatycznie innych rodzin modeli. Zarejestrowany protokół wzmacnia wewnętrzny zakres, ale nie rozszerza zewnętrznego zasięgu. Intensywne tempo produkcji kolejnych wersji zmusza jednak do relatywizacji ustaleń.

Zbieżność wyników z 2026 roku

Artykuł USC/Berkeley nie jest odosobniony. Trzy inne ostatnie prace dokumentują tę samą błędną kalibrację, na różnych obszarach. Sudipta Ghosh i Mrityunjoy Panday (Cognizant) opublikowali w lutym 2026 empiryczne badanie efektu „Dunning-Kruger” w LLM obejmujące 24 000 prób na czterech modelach. Kimi K2 wykazuje Expected Calibration Error 0,726 przy precyzji zaledwie 23,3%, podczas gdy Claude Haiku 4.5 osiąga najlepszą zmierzoną kalibrację (ECE 0,122) przy 75,4% precyzji. Najmniej wydajne modele są najbardziej pewne siebie. W medycynie npj Gut and Liver, czasopismo portfolio Nature, opublikowało 5 lutego 2026 ocenę 48 LLM testowanych na 300 pytaniach z gastroenterologii: niezależnie od poziomu precyzji, wszystkie modele nie szacują poprawnie swojej pewności. Zespół Johns Hopkins / MIT / Microsoft Healthcare rozszerza to ustalenie na wizualne odpowiedzi na pytania medyczne (VQA, visual question answering) (arXiv:2604.02543): modele utrzymują wysoką pewność nawet gdy produkują halucynacje. Wzorzec jest teraz udokumentowany na czterech niezależnych rodzinach metodologicznych.

Powiązanie z artykułem 14(4)(b) AI Act

Europejski harmonogram nadaje tej zbieżności wyników datowane znaczenie operacyjne. Artykuł 14 AI Act, którego początkowe wdrożenie planowano na 2 sierpnia 2026, został przełożony na 2 grudnia 2027 przez tymczasowe porozumienie polityczne Digital Omnibus on AI z 7 maja 2026 - pod warunkiem formalnej akceptacji przez współustawodawców. Jego ustęp (4)(b) nakłada wymóg, aby osoby fizyczne odpowiedzialne za ludzką nadzorczość systemu AI o wysokim ryzyku były świadome tendencji do polegania lub zbytniego polegania na wynikach generowanych przez system („błąd automatyzacji”), szczególnie w przypadku systemów używanych do dostarczania informacji lub rekomendacji w celu podejmowania decyzji przez osoby fizyczne (wolne tłumaczenie). Mechaniczne powiązanie z efektem hard-easy jest bezpośrednie: pewność modeli osiąga szczyt dokładnie w przypadkach, w których się mylą, co oznacza, że nadzorca ludzki ma najmniej wiarygodny sygnał do wykrycia błędu. Dokumentowane jest techniczne rozwiązanie - THERMOMETER (Shen et al., MIT/IBM, ICML 2024) proponuje post-hoc kalibrację wielozadaniową, lecz obowiązek z artykułu 14(4)(b) pozostaje wymogiem organizacyjnym ciążącym na wdrożycielu, niezależnym od postępów kalibracji po stronie modelu. Dla europejskiego nabywcy B2B wykorzystującego LLM w pomocy decyzyjnej w medycynie, rekrutacji lub ocenie kredytu - zastosowania objęte Aneks III rozporządzenia - kryterium wyboru zmienia się: nie wystarczy już porównywać deklarowanej precyzji, system i jego interfejs muszą umożliwiać nadzorcy ludzkiemu modulację pewności generowanej przez model.