평가 대상이 된 12개 주요 AI 모델 중 어느 것도 GDPR과 AI Act의 준수 기준을 통과하지 못했으며, 지금까지 통합업체가 떠안아 온 리스크는 이제 측정 가능하고, 문서화 가능하며, 법적으로 다툴 수 있는 형태가 되었다. 이는 비영리 연구재단 Aithos가 2026년 5월 27일 공개한 벤치마크 LARA(Legal Assessment for Real-world Agents)에서 드러난 결론이다. 결과는 단호하다. 평가된 어떤 모델도 유럽연합의 규제 요건을 완전히 충족하지 못했으며, 일부는 조사된 사례의 최대 93%에서 유럽 규정을 위반한 것으로 나타났다. 12개 테스트 모델 가운데 Anthropic의 Claude Opus 4.1이 약 54%의 준수율로 가장 높은 점수를 받았고, Google의 Gemini 3.1 Pro는 10%까지 떨어졌다. 이번 결과는 범용 AI 모델 제공자에 대한 AI Act 의무가 2025년 8월 2일부터 적용된 지 10개월 만에 나온 것이다. 2024년 8월 1일 발효되어 2026년 8월 2일 전면 적용되는 규정 제25조는 이미 통합업체의 공동 책임을 법문에 명시하고 있었다. LARA가 바꾸는 것은 이 리스크를 이론에서 모델별 수치로 전환했다는 점이다.
3,000개 시나리오, 12개 모델, 살아남은 모델은 소수
LARA는 GDPR과 AI Act가 겨냥하는 주요 리스크를 포괄하는 3,000개 이상의 시나리오를 기반으로 한다. 이 프로토콜은 각 모델을 에이전틱 상황에 놓고, 법적·규제적 딜레마를 어떻게 처리하는지 검증한다. 예를 들어 수집 전 동의 확보, 심리 프로파일링 회피, 사용자 조작 거부, 취약계층 보호, 자동화된 의사결정의 투명성 보장 등이 포함된다. 가장 빈번하게 기록된 위반은 명확한 법적 근거 없이 개인정보를 활용하는 행위, 암묵적인 심리 프로파일 생성, 그리고 사용자를 영향력 행사나 조작의 대상으로 삼을 수 있는 행동이었다. 순위는 냉정하다. 최상위인 Claude Opus 4.1과 최하위인 Gemini 3.1 Pro 사이에서, OpenAI, Meta, Mistral AI, xAI, DeepSeek의 모델들도 여러 범주에서 상당한 비준수율을 보였다. 비영리 재단 Aithos는 연구책임자인 Daan Henselmans의 주도로 2026년 5월 27일 자체 Substack 플랫폼에 이 연구를 공개했다. 다만 이 작업은 동료 심사를 거치지 않았고, 공식적인 규제 인증도 받지 않았다. 저자의 원문은 결론을 가감 없이 요약한다: “최첨단 모델 중 어느 것도 AI Act와 유럽 개인정보 보호법 관점에서 허용 가능한 수준의 준수에 도달하지 못한다”(자유 번역). 원문은 두 모델을 제외한 나머지 평가 모델의 정확한 버전이나 테스트 시점을 명시하지 않았으며, 이는 현재까지 공개 문서로도 해소되지 않은 방법론적 공백이다.
GDPR / AI Act 준수율 — Aithos LARA 벤치마크(2026년 5월, 3,000+ 시나리오)
| 모델 | 제공사 | 준수율 |
|---|---|---|
| Claude Opus 4.1 | Anthropic | ~54% |
| Gemini 3.1 Pro | ~10% | |
| OpenAI, Meta, Mistral AI, xAI, DeepSeek 모델 | 다양 | 개별 공개되지 않음 |
테스트된 12개 모델 중 어느 것도 유럽의 요구사항을 완전히 충족하지 못했다. 일부는 사례의 최대 93%에서 규정을 위반했다. 출처: Aithos LARA 벤치마크, 2026년 5월.
AI Act 제25조: 통합업체는 공동 제공자가 되며, 이미 예고되어 있었다
LARA가 실무적으로 가시화하는 핵심 법적 메커니즘은 새로운 것이 아니다. 2024년 8월 1일 발효되어 2026년 8월 2일부터 적용되는 AI Act 제25조 1항은, 고위험 AI 시스템의 예정된 사용을 변경하거나 자신의 브랜드를 부착하는 배포자가 공동 제공자가 된다고 규정한다. 실제로 이 자격이 부여되면 제16조가 직접 적용되며, 이는 제공자의 의무 기준을 정의한다. 여기에는 리스크 관리, 기술 문서화, 출시 후 모니터링이 포함된다. 고위험 용도에 범용 모델을 통합하는 DPO는 이 메커니즘을 통해 상위 제공자와 동일한 입증 책임 체계를 떠안게 된다.
이 통합업체-제공자 공동 책임 위에는 범용 AI 모델 제공자에 대한 별도 규제가 병행 적용된다. 제53조는 2025년 8월 2일부터 범용 AI 모델 제공자의 고유 의무를 규정해 왔으며, 여기에는 문서화, 저작권 준수 정책, 학습 데이터 요약이 포함된다. 위반 시 제101조는 이들 제공자에게 연간 전 세계 매출의 3% 또는 1,500만 유로 중 더 큰 금액을 상한으로 하는 벌금을 부과하도록 규정한다. 다만 이 제재 권한은 2026년 8월 2일부터만 집행된다.
Aithos는 통합업체 측면에 특히 주목한다. “이들 모델 위에 자체 AI 에이전트를 구축하는 기업 역시 법적 책임을 질 수 있다”(자유 번역)고 지적한다. 재단은 또, “GenAI 시스템은 추가적인 통제와 안전장치 없이는 아직 강하게 규제되는 환경에 배포될 준비가 되어 있지 않다”(자유 번역)고 덧붙인다. 공동 책임은 이미 법문에 존재했지만, LARA는 이를 모델별로 수치화했다. 법무팀이 감사 준비 자료로 활용할 수 있는 수준의 분석 단위가 처음으로 제시된 셈이다. 법무 부서에 변화를 가져오는 것은 점수 자체보다, 이론적 리스크가 문서화된 리스크로 바뀌었다는 사실이다.
선례, 실제 제재, 그리고 자금을 끌어들이는 컴플라이언스 레이어
LARA의 결과는 긴장감이 높아진 규제 환경 속에서 나왔다. 이탈리아에서는 Garante della Privacy가 2024년 12월 ChatGPT를 통한 개인정보 처리와 관련해 OpenAI에 1,500만 유로의 벌금을 부과했으며, 이는 2023년에 개시된 절차의 연장선에 있었다. ActuIA는 이미 이탈리아에서의 초기 서비스 제한을 보도한 바 있다. 그러나 이 제재는 2026년 1분기 로마 법원에서 절차상의 이유로 항소심에서 취소됐다. 2024년 2월부터 Irish Data Protection Commission이 OpenAI의 주된 감독기관이 되었기 때문에, Garante는 GDPR 원스톱숍 체계상 관할권이 없었다는 판단이었다. 다만 본안의 입증 문제는 여전히 열려 있다. 제공자 측에서는 Meta가 DMA/GDPR/AI Act 삼중 규제에 직면하기보다 Llama 3 멀티모달 모델의 유럽 출시를 보류한 바 있다. 이는 규제 노출이 너무 크다고 판단하는 기업에게 지리적 회피가 여전히 선택지라는 점을 보여준다. 반대편에서는 시장이 대응을 준비하고 있다. LLM과 최종 사용자 사이에 위치하는 컴플라이언스 미들웨어를 개발하는 스타트업 ZeroDrift는 자체 발표에 따르면 LARA 공개 직후인 2026년 6월 초 1,000만 달러의 자금 조달을 완료했다. 2026년 6월 8일 기준으로 Anthropic, Google, OpenAI, Meta, Mistral AI, xAI, DeepSeek 등 언급된 어떤 제공자도 Aithos의 방법론을 공개적으로 반박하거나, 자체 점수를 주장하거나, 대체 프로토콜을 제시하지 않았다. 쟁점은 텍스트의 공백에 있다. AI Act는 최종 사용자에게 손해가 발생했을 때 범용 모델 제공자와 배포자 사이의 입증 책임 분담을 명시하지 않는다. 2026년 8월 2일부터 국가 감독당국에 처음 제기될 사건들이 바로 이 공백을 판단하게 될 것이다.
