GPT-5의 도움을 받다가 홀로 남겨졌을 때: 무작위 실험이 측정한 AI 지원의 학습 비용

보조 도구가 사라지면, 남는 것은 무엇일까? 4월 arXiv에 공개된 일련의 무작위 대조 실험은 이에 대한 최초의 인과적 답변 중 하나를 제시한다. AI 어시스턴트와 함께 학습하면 지속성이 떨어지고, 스스로 수행할 때의 성과가 저하된다는 것이다. 그 영향은 분수 계산처럼 아주 기초적인 과제에서도 나타났다. 이 연구는 Carnegie Mellon의 Grace Liu를 비롯해 Oxford의 Brian Christian과 Tsvetomira Dumbalska, MIT의 Michiel A. Bakker, UCLA의 Rachit Dubey가 공동 집필했으며, Christian은 The Alignment Problem의 저자이기도 하다.

실험 설계

연구진은 총 1,222명의 참가자를 모집해 세 가지 실험에 무작위로 배정했다. 주요 실험에서는 참가자들이 GPT-5 기반 어시스턴트의 도움을 받거나 받지 않은 상태로 12개의 분수 문제를 푼 뒤, 이후에는 모두 동일한 3문항의 최종 시험을 보게 했다. 이때 어떤 시점에서도 문제를 포기할 수 있는 ‘건너뛰기’ 버튼이 제공됐다. 667명이 참여한 재현 실험에서는 사전 테스트를 추가해 조건을 더 엄격하게 했고, 세 번째 실험에서는 같은 절차를 텍스트 이해 과제로 확장했다.

결과

차이는 분명했다. 주요 실험의 AI 비지원 최종 시험에서, 사전에 어시스턴트와 함께 학습한 그룹은 문제의 57%를 맞힌 반면, 혼자 학습한 그룹은 73%의 정답률을 기록했다. 문제 포기율도 11%에서 20%로 거의 두 배 가까이 증가했다. 재현 실험에서도 효과는 다소 약해졌지만 여전히 관찰됐으며(71% 대 77%), 텍스트 이해 과제에서도 이를 확인할 수 있었다(76% 대 89%, 포기율은 8배 증가). 이 모든 결과는 약 10분 남짓한 노출만으로도 나타났다. 즉, 지원은 단지 역량을 도구로 옮겨 놓은 것이 아니라, 노력 자체에 대한 태도까지 약화시켰다. 저자들은 이를 일종의 조건화로 해석한다. AI는 즉각적인 답변에 익숙하게 만들고, 어려움을 극복하는 경험을 빼앗는다는 것이다.

이 연구가 입증한 것과 입증하지 못한 것

이 결과의 강점은 실험 설계에 있다. 무작위 배정 덕분에 인과적으로 해석할 수 있으며, 이는 AI와 관련된 이른바 ‘인지 위축’ 연구의 상당수가 상관관계나 자기보고에 의존하는 것과 대비된다. 다만 한계도 분명하다. 아직 동료 심사를 거치지 않은 preprint이며, 과제 범위도 분수와 짧은 텍스트 읽기처럼 제한적이다. 또한 관찰 기간은 매우 짧고, 단 하나의 모델만 테스트했으며, 더 엄격한 재현 실험에서는 효과가 눈에 띄게 줄어들었다. 이 연구가 밝혀낸 것은 일반 법칙이 아니라 특정 메커니즘이다.

왜 이 결과가 중요한가

그럼에도 이 메커니즘은 실험실을 넘어서는 시사점을 던진다. 교육 현장에서는 교사들이 우려해온 시나리오를 뒷받침한다. 즉, 당장의 산출물은 개선하지만, 도구 없이 수행하는 능력은 약화시키는 도구라는 것이다. 기업 환경에서는 AI 어시스턴트가 사실상 암묵적 교육 도구로 확산되는 만큼, 보조된 성과가 팀의 실제 역량을 과대평가하게 만들 수 있음을 시사한다. 또한 어시스턴트 설계자들에게는 아직 드문 선택지를 제안한다. 의도적인 마찰을 넣거나, AI가 정답을 대신 내놓기보다 안내만 하는 훈련 모드를 설계하는 방식이다. 이제 질문은 AI가 도움이 되는지 여부가 아니다. 이미 도움이 된다는 것은 분명하다. 진짜 문제는, 그것을 제거했을 때 무엇이 남는가이다.

Stephane Nachez

ActuIA 편집부 — 의사결정자를 위한 인공지능 뉴스, 데이터, 분석.

GPT-5의 도움을 받다가 홀로 남겨졌을 때: 무작위 실험이 측정한 AI 지원의 학습 비용

실험 설계

결과

이 연구가 입증한 것과 입증하지 못한 것

왜 이 결과가 중요한가

Machine unlearning: Google Research, 감사 테스트는 검증했지만 LLM에는 아직 미적용

ExpGraph: 자가 발전 그래프 메모리를 제안하는 LLM 에이전트를 위한 프리프린트

GPT는 가장 어려운 작업에서 가장 많이 실수하는 것을 더 자신있게 수행한다, USC/Berkeley의 사전 인쇄 논문에 따르면