인공지능 연구

Machine unlearning: Google Research, 감사 테스트는 검증했지만 LLM에는 아직 미적용

Google Research가 AISTATS 2026에서 machine unlearning 감사를 위한 통계 테스트를 제안해 일부 비용을 크게 낮출 가능성을 보였지만, 공개 검증은 아직 합성 벤치마크와 물리 데이터에 국한되며 LLM에는 적용되지 않았다.

STStephane Nachez · · ·3 min
Machine unlearning: Google Research, 감사 테스트는 검증했지만 LLM에는 아직 미적용
Sommaire

Google Research는 AISTATS 2026에서 이미 학습된 모델에서 특정 데이터를 선택적으로 삭제하는 machine unlearning을 감사(audit)하기 위한 통계적 테스트를 발표했다. Mónica Ribero, Antonin Schrab, Arthur Gretton이 제안한 Regularized f-Divergence Kernel Tests 프레임워크는 일부 감사의 실험 비용을 크게 낮출 수 있을 것으로 보인다. 예를 들어 차등프라이버시의 SVT3 메커니즘에서는 DP-Auditorium이 수백만 개의 샘플을 요구할 수 있는 반면, 이 테스트는 수천 개의 샘플만으로 위반을 탐지했다. 그러나 적용 범위는 아직 제한적이다. 공개된 검증은 합성 벤치마크와 고에너지 물리 데이터셋에 국한되며, 데이터 삭제·추적성·거버넌스 이슈가 집중되는 대규모 언어 모델(LLM)에는 아직 적용되지 않았다.

이 테스트가 보완하는 것과 여전히 남아 있는 것

이 도구는 표준 두 표본 테스트(MMD)의 알려진 한계를 겨냥한다. 동일한 데이터로 처음부터 다시 학습했지만 배치 크기만 다른 두 모델은 서로 다른 분포를 만들어내며, 이로 인해 unlearning 실패에 대한 오탐(false positive)이 발생할 수 있다. 새 테스트는 세 표본에 대한 상대적 검정과, 각 유형의 분포 변화에 가장 적합한 f-divergence(분포 간 거리 측정값)를 자동으로 선택하는 방식으로 이 함정을 피한다.

실험 비용 차이는 이 연구의 핵심 주장이다. 차등프라이버시의 SVT3(Sparse Vector Technique) 메커니즘에서 이 프레임워크는 수천 개의 샘플로 위반을 탐지한 반면, Google Research가 2024년에 공개한 기준 도구인 DP-Auditorium(arXiv:2307.05608)은 유사한 탐지율을 위해 수백만 개의 샘플을 필요로 했다. 다만 이 성과는 SVT3에 한정된 것이며, 차등프라이버시 전체 메커니즘에 일반화된 결과는 아니다. 또한 저자들은 어떤 단일 divergence도 항상 다른 것들을 압도하지는 않는다고 명시한다. 실험 조건이 단순화된 논문 환경에서 Selective Synaptic Dampening(SSD), pruning, finetuning 세 가지 방법은 대상 데이터를 실제로 지우는 데 실패한 것으로 평가됐고, random label 기법만이 세 표본 상대 검정을 통과했다. 저자들도 이 한계를 인정한다.

비전(vision) 영역 밖으로의 확장 가능성은 아직 입증되지 않았다. 2025년 10월 공개된 arXiv:2510.16629 연구는 모델이 현재 파라미터만 조정해서는 데이터를 완벽하게 잊을 수 없으며, 삭제되었다고 간주된 정보의 흔적이 잔존한다고 보여준다. 이는 Ribero et al.의 테스트가 측정할 수는 있지만 제거할 수는 없는 구조적 장애물이다. Feng et al. (CMU, UK AI Security Institute, Oxford)은 2025년 5월 프리프린트에서 대규모 언어 모델의 unlearning 평가가 현재로서는 결론적이지 않다고 지적했다. 또한 Chen et al. (LMU Munich, Oxford, Siemens)은 거의 같은 시기에 LLM 전용 감사 프레임워크를 발표했다. 다만 이 프레임워크는 AISTATS 2026 논문과 비교되지 않았다.

수단은 없고 결과만 요구되는 의무

GDPR는 제17조의 삭제권(right to erasure)을 통해 개인이 자신의 데이터를 삭제하도록 요구할 수 있는 가능성을 연다. 이를 AI 모델에 적용하면, 해당 데이터가 더 이상 output에 영향을 미치지 않는다는 점을 입증해야 한다는 뜻이 된다. GDPR는 제17조 요건이 충족되면 삭제 의무를 부과하지만, AI 모델에 적용될 경우 기술적 회색지대에 부딪힌다: 해당 데이터가 모델의 동작에 더 이상 영향을 주지 않는다는 사실을 어떻게 입증할 것인가?

유럽 차원에서도 최신 규범은 이 공백을 메우지 못한다. 유럽연합 집행위원회가 2025년 7월 최종본을 공개한 GPAI Code of Practice는 투명성, 저작권, 보안을 포괄하는 자율적(voluntary) 도구로, 공급자가 AI Act 제53조 준수를 입증하는 데 도움을 준다. 해당 조항은 학습에 사용된 콘텐츠의 공개 요약(public summary)을 요구하며, 2025년 8월 2일부터 적용되는 제53조(1)(d)에 해당한다. 그러나 검토한 버전의 문서 어디에도 이미 배포된 모델에서 특정 데이터가 실제로 삭제되었는지 검증하는 방법은 규정되어 있지 않다.

이 간극은 법보다 도구로 메워지고 있다. 바로 그 빈틈을 Ribero, Schrab, Gretton의 테스트가 메우려는 것이다. 성공적인 삭제를 통계적으로 방어 가능한 방식으로 측정하겠다는 접근이다. 하지만 아직 넘어야 할 시험은 남아 있다. 실험 검증이 합성 벤치마크와 물리 모델을 넘어, 삭제 요청이 집중되는 대규모 언어 모델로 확장되지 않는 한, 데이터보호책임자(DPO)가 요구하는 증빙 체인은 여전히 불완전하다.

ST
Stephane Nachez
subscriber

Rédaction ActuIA — actualités, données et analyses sur l'intelligence artificielle pour les décideurs.