GPTは最も誤る難しいタスクで自信を持ちすぎるとUSC/Berkeleyのプレプリントが示す

GPTは最も誤る難しいタスクで自信を持ちすぎるとUSC/Berkeleyのプレプリントが示す

TLDR : GPTは困難なタスクで過剰に自信を持ち、簡単なタスクでは過小評価する傾向があります。AI法の監督における信頼性に影響します。

GPT-4o、ChatGPT、およびGPT-3oが示す自信は実際の精度を上回っており、特に難しいタスクでそのギャップが広がります。逆に簡単なタスクでは、モデルは自分を過小評価します。このハード・イージー効果は、2026年4月3日にarXivに投稿されたACLレビュー中のプレプリントで定量化されており、AI法の第14条(4)(b)に規定された人間による監督に直接影響します。モデルが生成する自信のシグナルは、監督者が最も必要とする場面で最も信頼性が低いのです。著者であるNoam Michael、Daniel BenShushan、Jacob Bien、Don A. Moore(USC Marshall School of BusinessおよびUC Berkeley Haas School of Business)は、データ収集前に事前に登録されたプロトコル、仮説、方法論を報告しており、テストされた範囲(GPT-4o、ChatGPT、およびGPT-3o)での結果の実証的な有効性を強化しています。

信頼のシグナルは、監督者が最も必要とする場面で最も信頼性が低い。

ハード・イージー効果は、LifeEvalを通じてGPT-4o、ChatGPT、およびGPT-3oで測定されました - プリレジスタープロトコル、arXiv:2605.23909、v1、2026年4月3日

LifeEvalベンチマークとハード・イージー効果の定量化

この結果を得るために、著者はLifeEvalという独自のベンチマークを構築しました。これは、異なる難易度レベルでのモデルのキャリブレーションを評価するために設計されたテストとして(自由翻訳)紹介されています。全体のセットでは、達成可能な平均最高スコア(Mean Accuracy Score)は56.80%に設定されています。報告された指標は4つ:Mean Score、Expected Calibration Error(ECE)、Mean Confidence、および難易度と過剰自信を結びつける回帰係数です。この最後の係数はハード・イージー効果の実証的な署名を持ち、難しいテストで過剰自信が最も強く、簡単なテストでは著しい過小自信が生じます。心理的なアンカーを保証する共同著者は、Haas School of Businessの教授であるDon A. Mooreで、「The Trouble With Overconfidence」(Psychological Review, 2008)の著者です。方法論的な留保が残ります:ヒューマンバイアスとの比較 - アブストラクトで利用された「like people」式 - は、この段階で比較方法論が明示されていません。ヒューマンハード・イージー効果のLLMへの転写も議論の余地があります:Juslin、Winman、Olsson(Psychological Review, 2000)は、アイテム選択のアーティファクトを制御した後、ヒューマン効果がほぼ完全に消失することを示しており、モデル側で観察されたメカニズムが類似しているか、他の原因に基づいているかは未解決のままです。

外挿してはならない範囲

arXiv:2605.23909の論文はACLレビュー中のプレプリントです(v1、2026年4月3日):まだ査読委員会によって承認されていない結果です。LifeEvalはGPT-4o、ChatGPT、およびGPT-3oをカバーしており、結論は他のモデルファミリーに機械的に適用されません。プリレジスタープロトコルは内部的な範囲を強化しますが、外部的なカバレッジを拡大しません。ただし、連続するバージョンの生産ペースが激しいため、結論を相対化する必要があります。

2026年の収束する結果の証拠

USC/Berkeleyの論文は孤立していません。他の3つの最近の研究が異なる範囲で同様のキャリブレーションミスを文書化しています。Sudipta GhoshとMrityunjoy Panday(Cognizant)は、2026年2月に4つのモデルで24,000の試験をカバーした「Dunning-Kruger効果」のLLMにおける経験的研究を発表しました。Kimi K2は、精度がわずか23.3%でありながらExpected Calibration Errorが0.726を示し、Claude Haiku 4.5は75.4%の精度で最高のキャリブレーション(ECE 0.122)を達成しています。最もパフォーマンスが低いモデルが最も過剰自信を持っています。医療分野では、Natureポートフォリオのジャーナルであるnpj Gut and Liverが2026年2月5日に、300の消化器学に関する質問でテストされた48のLLMに関する評価を発表しました:精度のレベルにかかわらず、すべてのモデルが自己確信の誤った推定を示します。Johns Hopkins / MIT / Microsoft Healthcareのチームは、医療質問に対する視覚的回答(VQA、visual question answering)においてこの結論を延長しています(arXiv:2604.02543):モデルは幻覚を生み出すときでさえ高い自信を維持します。パターンは現在、4つの独立した方法論ファミリーで文書化されています。

AI法第14条(4)(b)との関連

欧州のスケジュールは、これらの結果の束に日付付きの操作的な重要性を与えます。AI法第14条は、2026年8月2日に予定されていた施行が、2026年5月7日のAIに関するデジタルオムニバスの暫定政治合意によって2027年12月2日に延期されました - 共同立法者による正式採用を条件としています。第4項(b)は、高リスクAIシステムの人間監督を担当する自然人が、システムが生成する出力に自動的に依存または過度に依存する傾向(「自動化バイアス」)を意識し続けることができるようにすることを求めています(自由翻訳)。ハード・イージー効果との機械的なリンクは直接的です:モデルの自信は、最も間違いやすいケースで正確にピークに達し、監督者がエラーを検出するためのシグナルが最も信頼できないゾーンです。技術的な解決策は文書化されています - THERMOMETER(Shen et al., MIT/IBM, ICML 2024)は、マルチタスクの後処理キャリブレーションを提案していますが、第14条(4)(b)の義務は、モデル側のキャリブレーションの進歩に依存しない、デプロイヤーに重くのしかかる組織的な要求です。医療支援、採用、クレジット評価にLLMを利用する欧州のB2Bバイヤーにとって、選択基準は移動しています:表示される精度を比較するだけでは不十分で、システムとそのインターフェースが、モデルによって生成される自信を監督者がモダル化できるようにしなければなりません。