GPT selbstbewusster bei schwierigen Aufgaben, bei denen es am meisten irrt, laut einem Preprint von USC/Berkeley

Das von GPT-4o, ChatGPT und GPT-o3 gezeigte Vertrauen übersteigt ihre tatsächliche Genauigkeit, und die Diskrepanz wird gerade bei schwierigen Aufgaben größer - bei einfachen Aufgaben hingegen unterschätzen sich die Modelle. Dieser hard-easy-Effekt, quantifiziert in einem Preprint, der zur Überprüfung bei ACL auf arXiv hochgeladen wurde am 3. April 2026, betrifft direkt die menschliche Überwachung, die in Artikel 14(4)(b) des AI Act vorgesehen ist: Das von dem Modell erzeugte Vertrauenssignal ist am wenigsten zuverlässig dort, wo der Supervisor es am meisten benötigt. Die Autoren - Noam Michael, Daniel BenShushan, Jacob Bien und Don A. Moore, USC Marshall School of Business und UC Berkeley Haas School of Business - berichten über ein vorregistriertes Protokoll, Hypothesen und Methodologie, die vor der Datenerfassung erklärt wurden, was die empirische Bedeutung des Ergebnisses auf dem getesteten Gebiet (GPT-4o, ChatGPT und GPT-o3) verstärkt.

Das Vertrauenssignal ist am wenigsten zuverlässig dort, wo der Supervisor es am meisten benötigt.

Hard-easy-Effekt gemessen an GPT-4o, ChatGPT und GPT-o3 über LifeEval - vorregistriertes Protokoll, arXiv:2605.23909, v1 vom 3. April 2026

Der LifeEval-Benchmark und der quantifizierte hard-easy-Effekt

Um dieses Ergebnis zu erzielen, haben die Autoren einen proprietären Test, LifeEval, entwickelt, der (freie Übersetzung) als ein Test konzipiert ist, um die Kalibrierung der Modelle über verschiedene Schwierigkeitsgrade hinweg zu bewerten. Auf dem gesamten Set liegt der durchschnittlich erreichbare Höchstscore (Mean Accuracy Score) bei 56,80 %. Vier Metriken werden berichtet: Mean Score, Expected Calibration Error (ECE), Mean Confidence und ein Regressionskoeffizient, der Schwierigkeit und Übervertrauen verknüpft. Dieser letzte Koeffizient trägt die empirische Signatur des hard-easy-Effekts: Das Übervertrauen ist am stärksten bei schwierigen Tests, während einfache Tests zu einer erheblichen Unterbewertung führen. Der Co-Autor, der für die psychologische Verankerung verantwortlich ist, ist Don A. Moore, Professor an der Haas School of Business und Inhaber des Lorraine Tyson Mitchell Chair in Leadership and Communication, ein Referenzautor zum Thema ("The Trouble With Overconfidence", Psychological Review, 2008). Eine methodologische Reserve bleibt zu erwähnen: Der Vergleich mit dem menschlichen Bias - die Formel "like people", die im Abstract verwendet wird - basiert auf einer Analogie, deren vergleichende Methodologie zu diesem Zeitpunkt nicht spezifiziert ist. Die Übertragung des menschlichen hard-easy-Effekts auf LLM bleibt ebenfalls umstritten: Juslin, Winman und Olsson (Psychological Review, 2000) zeigten, dass der Effekt bei Menschen fast vollständig verschwindet, wenn die Auswahl der Items kontrolliert wird, und die Frage, ob der beobachtete Mechanismus auf Modellseite analog ist oder auf andere Ursachen zurückzuführen ist, bleibt offen.

Umfang nicht extrapolierbar

Das Paper arXiv:2605.23909 ist ein Preprint zur Überprüfung bei ACL (v1, 3. April 2026): Ergebnisse noch nicht durch ein Begutachtungskomitee validiert. LifeEval deckt GPT-4o, ChatGPT und GPT-o3 ab - die Schlussfolgerungen gelten nicht mechanisch für andere Modellfamilien. Das vorregistrierte Protokoll verstärkt den internen Umfang, erweitert jedoch nicht die externe Abdeckung. Das intensive Tempo der Produktion aufeinanderfolgender Versionen zwingt jedoch zur Relativierung der Ergebnisse.

Ein konvergierendes Bündel von Ergebnissen 2026

Das USC/Berkeley-Paper kommt nicht isoliert. Drei weitere kürzlich veröffentlichte Arbeiten dokumentieren dieselbe Fehlkalibrierung, auf unterschiedlichen Gebieten. Sudipta Ghosh und Mrityunjoy Panday (Cognizant) veröffentlichten im Februar 2026 eine empirische Studie über den "Dunning-Kruger-Effekt" in LLMs, die 24.000 Versuche auf vier Modellen abdeckt. Kimi K2 zeigt einen Expected Calibration Error von 0,726 bei einer Genauigkeit von nur 23,3 %, während Claude Haiku 4.5 die beste gemessene Kalibrierung erreicht (ECE 0,122) bei 75,4 % Genauigkeit. Die am wenigsten leistungsfähigen Modelle sind die überkonfidentesten. Im medizinischen Bereich veröffentlichte npj Gut and Liver, eine Zeitschrift des Nature-Portfolios, am 5. Februar 2026 eine Bewertung von 48 LLMs, die auf 300 Fragen zur Gastroenterologie getestet wurden: Unabhängig vom Genauigkeitsgrad zeigen alle Modelle eine schlechte Einschätzung ihrer eigenen Sicherheit. Ein Team von Johns Hopkins / MIT / Microsoft Healthcare verlängert diese Feststellung in visuellen Antworten auf medizinische Fragen (VQA, visual question answering) (arXiv:2604.02543): Die Modelle halten ein hohes Vertrauen aufrecht, selbst wenn sie Halluzinationen erzeugen. Das Muster ist jetzt auf vier unabhängigen methodologischen Familien dokumentiert.

Verknüpfung mit Artikel 14(4)(b) des AI Act

Der europäische Zeitplan gibt diesem Bündel von Ergebnissen eine datierte operationale Reichweite. Artikel 14 des AI Act, dessen Anwendung ursprünglich für den 2. August 2026 geplant war, sieht seine Inkraftsetzung auf den 2. Dezember 2027 durch die vorläufige politische Vereinbarung Digital Omnibus on AI vom 7. Mai 2026 verschoben - vorbehaltlich der formellen Annahme durch die Mitgesetzgeber. Sein Absatz (4)(b) verlangt, dass die natürlichen Personen, die für die menschliche Überwachung eines Hochrisiko-IA-Systems verantwortlich sind, in der Lage bleiben, sich der Tendenz bewusst zu sein, sich automatisch auf die vom System erzeugte Ausgabe zu verlassen oder zu sehr darauf zu verlassen ("Automatisierungs-Bias"), insbesondere für Systeme, die zur Bereitstellung von Informationen oder Empfehlungen für Entscheidungen durch natürliche Personen verwendet werden (freie Übersetzung). Die mechanische Verbindung mit dem hard-easy-Effekt ist direkt: Das Vertrauen der Modelle erreicht genau bei den Fällen seinen Höhepunkt, in denen sie sich am meisten irren, also in dem Bereich, in dem der menschliche Supervisor das am wenigsten zuverlässige Signal hat, um einen Fehler zu erkennen. Eine technische Lösung wird dokumentiert - THERMOMETER (Shen et al., MIT/IBM, ICML 2024) schlägt eine post-hoc-Kalibrierung für mehrere Aufgaben vor, aber die Verpflichtung gemäß Artikel 14(4)(b) bleibt eine organisatorische Anforderung für den Einsatz, unabhängig von den Fortschritten in der Modellkalibrierung. Für einen europäischen B2B-Käufer, der ein LLM zur Entscheidungsunterstützung im medizinischen Bereich, bei der Rekrutierung oder bei der Kreditbewertung einsetzt - Nutzungen, die durch Anhang III der Verordnung abgedeckt werden -, verschiebt sich das Auswahlkriterium: Es reicht nicht mehr aus, die angegebenen Genauigkeiten zu vergleichen, es muss auch sichergestellt werden, dass das System und seine Schnittstelle dem menschlichen Supervisor ermöglichen, das vom Modell erzeugte Vertrauen zu modulieren.

Stephane Nachez

ActuIA-Redaktion — Nachrichten, Daten und Analysen zur künstlichen Intelligenz für Entscheidungsträger.

GPT selbstbewusster bei schwierigen Aufgaben, bei denen es am meisten irrt, laut einem Preprint von USC/Berkeley

Der LifeEval-Benchmark und der quantifizierte hard-easy-Effekt

Ein konvergierendes Bündel von Ergebnissen 2026

Verknüpfung mit Artikel 14(4)(b) des AI Act

Mit GPT-5 unterstützt, dann auf sich allein gestellt: Eine randomisierte Studie misst die Kosten des Lernens durch KI-Hilfe

Machine Unlearning: Google Research validiert einen Audit-Test, aber noch nicht für LLMs

Der Preprint ExpGraph schlägt ein selbst-evolvierendes Graphenspeicher für LLM-Agenten vor