GPT, En Çok Yanıldığı Zor Görevlerde Daha Güvenli, USC/Berkeley Preprint'ine Göre

GPT-4o, ChatGPT ve GPT-o3 tarafından gösterilen özgüven, gerçek doğruluklarını aşıyor ve bu fark tam da zor görevlerde büyüyor - kolay görevlerde ise modeller kendilerini olduğundan düşük değerlendiriyor. Bu zor-kolay etkisi, arXiv'e 3 Nisan 2026 tarihinde yüklenen ve gözden geçirilmekte olan bir ACL preprint'inde ölçülmüş olup, AI Act'in 14(4)(b) maddesinde öngörülen insan denetimini doğrudan etkiliyor: Model tarafından üretilen güven sinyali, denetçinin en çok ihtiyaç duyduğu yerde en az güvenilir olanıdır. Yazarlar - Noam Michael, Daniel BenShushan, Jacob Bien ve Don A. Moore, USC Marshall School of Business ve UC Berkeley Haas School of Business - veri toplama öncesinde beyan edilen önceden kayıtlı bir protokol, hipotezler ve metodoloji rapor ediyorlar, bu da test edilen alan üzerindeki ampirik sonucun kapsamını güçlendiriyor (GPT-4o, ChatGPT ve GPT-o3).

Güven sinyali, denetçinin en çok ihtiyaç duyduğu yerde en az güvenilirdir.

Zor-kolay etkisi LifeEval üzerinden GPT-4o, ChatGPT ve GPT-o3 üzerinde ölçüldü - önceden kayıtlı protokol, arXiv:2605.23909, v1, 3 Nisan 2026

LifeEval Benchmark'ı ve Zor-Kolay Etkisinin Ölçümü

Bu sonucu üretmek için yazarlar, modellerin farklı zorluk seviyelerinde kalibrasyonlarını değerlendirmek amacıyla LifeEval adında tescilli bir test platformu oluşturdular. Oyunun genelinde, ulaşılabilir maksimum ortalama puan (Ortalama Doğruluk Puanı) %56,80 olarak belirlenmiştir. Dört metrik rapor edilmiştir: Ortalama Puan, Beklenen Kalibrasyon Hatası (ECE), Ortalama Güven ve zorluk ile aşırı özgüven arasındaki regresyon katsayısı. Bu son katsayı, zor-kolay etkisinin ampirik imzasını taşır: aşırı özgüven zor testlerde en yüksektir, oysa kolay testler önemli bir özgüvensizlik yaratır. Psikolojik temeli sağlayan ortak yazar, Haas School of Business'ta profesör ve Lorraine Tyson Mitchell Chair in Leadership and Communication sahibi Don A. Moore'dur, konu üzerinde referans bir yazar ("The Trouble With Overconfidence", Psychological Review, 2008). Metodolojik bir rezervasyon yapılmalıdır: İnsan yanlılığı ile karşılaştırma - özet bölümünde kullanılan "like people" formülü - bu aşamada açıklanmamış karşılaştırmalı bir metodolojiye dayanır. İnsanların zor-kolay etkisinin LLM'lere aktarımı hala tartışılmaktadır: Juslin, Winman ve Olsson (Psychological Review, 2000), öğe seçim artefaktları kontrol edildiğinde etkinin insanlarda neredeyse tamamen kaybolduğunu göstermiştir ve gözlemlenen mekanizmanın model tarafında benzer olup olmadığı veya başka nedenlere dayanıp dayanmadığı sorusu açık kalmaktadır.

Ekstrapolasyon Yapılmaması Gereken Alan

arXiv:2605.23909 makalesi bir ACL gözden geçirilmekte olan preprint'tir (v1, 3 Nisan 2026): sonuçlar henüz hakem değerlendirmesinden geçmemiştir. LifeEval GPT-4o, ChatGPT ve GPT-o3'ü kapsamaktadır - sonuçlar diğer model ailelerine otomatik olarak uygulanamaz. Önceden kayıtlı protokol iç kapsamı güçlendirir, ancak dış kapsamı genişletmez. Bununla birlikte, ardışık versiyonların üretim hızının yoğunluğu gözlemi göreceli hale getirir.

2026 Yılına Ait Birbirini Tamamlayan Sonuçlar

USC/Berkeley makalesi tek başına gelmiyor. Üç diğer yakın tarihli çalışma, farklı alanlarda aynı yanlış kalibrasyonu belgeliyor. Sudipta Ghosh ve Mrityunjoy Panday (Cognizant) Şubat 2026'da LLM'lerdeki "Dunning-Kruger etkisi" üzerine bir ampirik çalışma yayınladılar ve dört model üzerinde 24.000 deneme gerçekleştirdiler. Kimi K2, yalnızca %23,3 doğruluk için 0,726'lık bir Beklenen Kalibrasyon Hatası gösterirken, Claude Haiku 4.5 en iyi ölçülen kalibrasyona (ECE 0,122) %75,4 doğrulukla ulaşmıştır. En az başarılı modeller en aşırı güveni sergileyenlerdir. Tıbbi tarafta, npj Gut and Liver, Nature portföyüne ait bir dergi, 5 Şubat 2026'da gastroenteroloji üzerine 300 soruda test edilen 48 LLM'yi kapsayan bir değerlendirme yayınladı: doğruluk seviyesinden bağımsız olarak, tüm modeller kendi kesinliklerini yanlış tahmin etmektedir. Johns Hopkins / MIT / Microsoft Healthcare ekibi bu durumu görsel bir yanıtla tıbbi sorulara (VQA, görsel soru yanıtlama) genişletiyor (arXiv:2604.02543): modeller, halüsinasyonlar ürettiklerinde bile yüksek bir güven koruyor. Artık dört bağımsız metodolojik ailede belgeleyen bir desen var.

AI Act'in 14(4)(b) Maddesi ile İlişkilendirme

Avrupa takvimi bu sonuçlar demetini tarihli operasyonel bir kapsam kazandırıyor. AI Act'in 14. maddesi, başlangıçta 2 Ağustos 2026'da yürürlüğe girmesi planlanmışken, 7 Mayıs 2026'daki Digital Omnibus on AI geçici siyasi anlaşması ile yürürlüğe girme tarihi 2 Aralık 2027'ye ertelenmiştir - eş-yasa koyucular tarafından resmi olarak kabul edilme şartıyla. 4(b) paragrafı, yüksek riskli bir AI sisteminin insan denetiminden sorumlu olan fiziksel kişilerin, sistem tarafından üretilen çıktıya otomatik olarak güvenme ya da aşırı güvenme eğiliminde olduklarının farkında kalabilmelerini zorunlu kılar ("otomasyon yanlılığı"), özellikle de bireyler tarafından alınan kararlar için bilgi veya tavsiye sağlamak üzere kullanılan sistemlerde (serbest çeviri). Zor-kolay etkisi ile mekanik bağlantı doğrudandır: modellerin güveni tam da en çok yanıldıkları durumlarda zirve yapar, yani denetleyici insan için hatayı tespit etmek için en az güvenilir sinyalin olduğu alanda. Teknik bir çözüm belgelenmiştir - THERMOMETER (Shen ve diğerleri, MIT/IBM, ICML 2024) çoklu görevli post-hoc kalibrasyon öneriyor, ancak 14(4)(b) maddesi yükümlülüğü model tarafındaki kalibrasyon ilerlemelerinden bağımsız olarak dağıtıcı üzerinde bir organizasyonel gerekliliktir. Karar verme, işe alım veya kredi notlama yardımı için bir LLM kullanan bir Avrupalı B2B alıcısı için - yönetmeliğin Ek III'ünde kapsanan kullanımlar -, seçim kriteri değişiyor: artık yalnızca gösterilen doğrulukları karşılaştırmak yeterli değildir, sistemin ve arayüzünün, denetleyici insanın modelin ürettiği güveni modülasyon yapmasına izin vermesi gerekir.

Stephane Nachez

ActuIA yayın kurulu — karar vericiler için yapay zeka üzerine haberler, veriler ve analizler.

GPT, En Çok Yanıldığı Zor Görevlerde Daha Güvenli, USC/Berkeley Preprint'ine Göre

LifeEval Benchmark'ı ve Zor-Kolay Etkisinin Ölçümü

2026 Yılına Ait Birbirini Tamamlayan Sonuçlar

AI Act'in 14(4)(b) Maddesi ile İlişkilendirme

GPT-5 ile desteklenip sonra kendi başlarına bırakıldılar: randomize bir deney, yapay zekâ desteğinin öğrenme maliyetini ölçüyor

Machine unlearning: Google Research bir denetim testini doğruladı, ancak henüz LLM'lerde değil

ExpGraph Ön Baskısı, LLM Temelli Ajanlar İçin Kendi Kendine Evrimleşen Bir Grafik Belleği Öneriyor