GPT는 가장 어려운 작업에서 가장 많이 실수하는 것을 더 자신있게 수행한다, USC/Berkeley의 사전 인쇄 논문에 따르면

GPT-4o, ChatGPT 및 GPT-o3의 자신감은 실제 정확도를 초과하며, 이 차이는 특히 어려운 작업에서 커집니다 - 반대로, 쉬운 작업에서는 모델이 스스로를 과소평가합니다. 이 hard-easy 효과는 arXiv에 2026년 4월 3일에 게시된 ACL 검토 중인 사전 인쇄 논문에서 정량화되었으며, 이는 AI Act의 14(4)(b) 조항에 명시된 인간 감독에 직접 영향을 미칩니다: 모델이 생성하는 신뢰 신호는 감독자가 가장 필요로 하는 곳에서 가장 신뢰할 수 없습니다. 저자들은 - Noam Michael, Daniel BenShushan, Jacob Bien 및 Don A. Moore, USC Marshall School of Business 및 UC Berkeley Haas School of Business - 데이터 수집 전에 선언된 가설 및 방법론을 통해 사전 등록된 프로토콜을 보고하며, 이는 테스트된 범위(GPT-4o, ChatGPT 및 GPT-o3)에 대한 경험적 결과의 범위를 강화합니다.

신뢰 신호는 감독자가 가장 필요로 하는 곳에서 가장 신뢰할 수 없습니다.

LifeEval을 통해 GPT-4o, ChatGPT 및 GPT-o3에서 측정된 hard-easy 효과 - 사전 등록된 프로토콜, arXiv:2605.23909, 2026년 4월 3일 v1

LifeEval 벤치마크와 정량화된 hard-easy 효과

이 결과를 도출하기 위해, 저자들은 다양한 난이도 수준에서 모델의 보정을 평가하기 위해 설계된 테스트로 프리젠테이션된 독점적인 벤치마크, LifeEval을 구축했습니다. 전체 게임에서 달성 가능한 평균 최대 점수(Mean Accuracy Score)는 56.80%입니다. 네 가지 메트릭이 보고됩니다: 평균 점수, 예상 보정 오류(ECE), 평균 신뢰도, 그리고 난이도와 과신을 연결하는 회귀 계수. 이 마지막 계수는 hard-easy 효과의 경험적 서명을 나타냅니다: 과신은 어려운 테스트에서 가장 강력하며, 쉬운 테스트는 상당한 과소신뢰를 초래합니다. 심리적 기반을 보장하는 공동 저자는 Haas School of Business의 교수이자 Lorraine Tyson Mitchell Chair in Leadership and Communication의 보유자인 Don A. Moore로, 주제에 대한 참고 문헌 저자입니다 ("The Trouble With Overconfidence", Psychological Review, 2008). 방법론적 예비 조건은 여전히 존재합니다: 인간 편향과의 비교 - 추상에서 동원된 "사람들처럼" 공식 - 은 비교 방법론이 이 단계에서 명확히 설명되지 않는 유추에 기반합니다. 인간의 hard-easy 효과를 LLM에 전이하는 것은 여전히 논의 중입니다: Juslin, Winman 및 Olsson은(Psychological Review, 2000) 항목 선택의 아티팩트를 통제했을 때 인간에게서 이 효과가 거의 사라진다는 것을 보여 주었으며, 모델 측면에서 관찰된 메커니즘이 유사하거나 다른 원인에 기반하는지 여부는 여전히 열려 있습니다.

외삽하지 말아야 할 범위

arXiv:2605.23909 논문은 ACL 검토 중인 사전 인쇄물입니다 (v1, 2026년 4월 3일): 아직 심사위원회에 의해 검증되지 않은 결과입니다. LifeEval은 GPT-4o, ChatGPT 및 GPT-o3을 다루고 있으며, 결론은 다른 모델 패밀리에 기계적으로 적용되지 않습니다. 사전 등록된 프로토콜은 내부 범위를 강화하지만 외부 커버리지를 확장하지는 않습니다. 그러나 후속 버전의 제품화가 빈번하게 이루어지므로 결과를 상대적으로 볼 필요가 있습니다.

2026년 일치하는 결과의 집합

USC/Berkeley 논문은 고립된 결과가 아닙니다. 세 가지 다른 최근 연구가 다른 범위에서 동일한 미스칼리브레이션을 문서화하고 있습니다. Sudipta Ghosh 및 Mrityunjoy Panday (Cognizant)는 2026년 2월에 LLM의 "Dunning-Kruger 효과"에 대한 경험적 연구를 발표했습니다. 이 연구는 네 가지 모델에 대한 24,000개의 시도를 다룹니다. Kimi K2는 겨우 23.3%의 정확도로 예상 보정 오류 0.726을 나타내며, Claude Haiku 4.5는 75.4%의 정확도로 최고의 보정(ECE 0.122)을 기록했습니다. 가장 성능이 낮은 모델이 가장 과신합니다. 의료 분야에서는 Nature 포트폴리오의 npj Gut and Liver가 2026년 2월 5일에 48개의 LLM을 300개의 위장병학 질문으로 테스트한 평가를 발표했습니다: 정확도 수준과 관계없이 모든 모델은 자신의 확실성을 잘못 추정합니다. Johns Hopkins / MIT / Microsoft Healthcare 팀은 의료 질문에 대한 시각적 응답(VQA, visual question answering)에서 이 결과를 확장합니다 (arXiv:2604.02543): 모델은 환각을 생성할 때에도 높은 신뢰를 유지합니다. 패턴은 이제 네 가지 독립적인 방법론적 패밀리에서 문서화되고 있습니다.

AI Act의 14(4)(b) 조항과의 연관성

유럽 일정은 이 결과 집합에 시간적 운영적 중요성을 부여합니다. AI Act의 14조, 그 적용은 원래 2026년 8월 2일로 예정되어 있었으나 2026년 5월 7일의 Digital Omnibus on AI의 임시 정치적 합의로 인해 2027년 12월 2일로 연기되었습니다 - 공동 입법자가 공식적으로 채택할 경우를 전제로 합니다. 그 조항 (4)(b)는 고위험 AI 시스템의 인간 감독을 담당하는 개인이 시스템의 출력에 자동으로 의존하거나 과도하게 의존하는 경향을 인식할 수 있어야 한다고 명시하고 있습니다 ("자동화 편향"), 특히 정보 제공이나 물리적 사람의 결정에 대한 권고를 위한 시스템의 경우 (자유 번역). hard-easy 효과와의 기계적 연결은 직접적입니다: 모델의 신뢰는 그들이 가장 많이 실수하는 케이스에서 절정에 달하며, 이는 인간 감독자가 오류를 감지하기 위해 가장 신뢰할 수 없는 신호를 가지고 있는 영역입니다. 기술적 해결책이 문서화되어 있습니다 - THERMOMETER (Shen et al., MIT/IBM, ICML 2024)는 다중 작업 후속 보정을 제안합니다. 그러나 14(4)(b) 조항의 의무는 모델 보정의 진보와 독립적으로 배포자에게 부담을 지우는 조직적 요구사항입니다. 의료 결정 지원, 채용 또는 신용 평가를 위해 LLM을 사용하는 유럽 B2B 구매자의 경우 - 규정의 부록 III에 의해 다루어지는 사용 사례 - 선택 기준이 이동합니다: 표시된 정확도를 비교하는 것만으로는 충분하지 않습니다, 시스템 및 인터페이스가 모델이 생성한 신뢰를 인간 감독자가 조절할 수 있도록 해야 합니다.

Stephane Nachez

ActuIA 편집부 — 의사결정자를 위한 인공지능 뉴스, 데이터, 분석.

GPT는 가장 어려운 작업에서 가장 많이 실수하는 것을 더 자신있게 수행한다, USC/Berkeley의 사전 인쇄 논문에 따르면

LifeEval 벤치마크와 정량화된 hard-easy 효과

2026년 일치하는 결과의 집합

AI Act의 14(4)(b) 조항과의 연관성

GPT-5의 도움을 받다가 홀로 남겨졌을 때: 무작위 실험이 측정한 AI 지원의 학습 비용

Machine unlearning: Google Research, 감사 테스트는 검증했지만 LLM에는 아직 미적용

ExpGraph: 자가 발전 그래프 메모리를 제안하는 LLM 에이전트를 위한 프리프린트