Solaria-3: Gladia, 자체 측정 기준 생산용 오디오에서 선두

2024~2025년 들어 API 기반 전사 시장은 생산 환경 오디오로 이동하고 있다. 즉, 소음이 많은 회의, 다양한 억양, 전화 음성 등이다. Gladia가 2026년 6월 10일 공개한 Solaria-3는 이러한 변화를 의도적으로 반영한 모델로, 실제 오디오에서는 성능이 향상됐지만 Multilingual LibriSpeech에서는 Solaria-1 대비 36% 하락했다. 파리 기반 스타트업 Gladia는 자체 측정 기준으로 Earnings22 Cleaned AA에서 WER 6.4%를 기록해 1위를 주장한다.

이러한 트레이드오프는 의도된 것이다. Gladia는 광범위한 다국어 활용 사례를 위해 Solaria-1을 병행 유지하고 있다. 또한 Gladia에 따르면 Solaria-3의 개선 폭은 언어별로 균일하지 않다(자체 내부 오디오 기준 영어 -26%, 독일어 -3%).

양방향으로 읽히는 표

Gladia가 공개한 수치는 전문화의 전환을 보여준다. 이 모델은 콜센터가 마주하는 조건, 즉 8kHz 전화 음성, 다중 화자 회의, 비원어민 억양에서는 성능이 향상되지만, Solaria-1이 여전히 우위를 유지하는 실험실형 조건에서는 뒤처진다. 아래 표는 Gladia가 2026년 6월 10일 공개한 측정치를 정리한 것이다(WER = word error rate, 전사된 단어의 오류율).

벤치마크	오디오 조건	Solaria-3 WER	비교 대상	출처
Earnings22 Cleaned AA	금융 / 비즈니스 발화	6.4%	AssemblyAI Universal-2: 6.9%	Gladia
Switchboard	열화된 8kHz 전화 음성	33.9%	ElevenLabs: 55.2%	Gladia
잡음이 있는 오디오	배경 소음	1.4%	Mistral Voxtral: 1.0%	Gladia
Multilingual LibriSpeech	스튜디오 낭독형 다국어 오디오	8.0%	Solaria-1: 5.9% (+36%)	Gladia
VoxPopuli Cleaned AA	기관 / 의회 발화	2.9%	Solaria-1: 2.2% (+32%)	Gladia

Gladia에 따르면 Solaria-3는 Earnings22에서 AssemblyAI Universal-2를 0.5포인트 차이로 앞선다(6.4% 대 6.9%). 다만 이는 WER 측정에서 흔히 발생하는 잡음 범위 내의 격차로 해석될 수 있다. Switchboard에서는 자사 비교군 가운데 35% 미만을 기록한 유일한 모델로 소개한다. 그러나 적용 범위는 더 좁다. Solaria-3는 영어, 프랑스어, 독일어, 스페인어, 이탈리아어 등 5개 유럽 언어에 최적화된 반면, Solaria-1은 Gladia 기준 100개 이상의 언어를 지원하며 그중 42개는 독점 언어로 제시된다. 이 모든 수치는 Gladia가 자체 소유·내부 주석 처리한 데이터셋에 기반하며, 공개 데이터가 아니기 때문에 현재 상태로는 제3자의 재현이 불가능하다.

B2B 구매자에게 이 트레이드오프가 의미하는 것

Earnings22, Switchboard, VoxPopuli는 B2B 구매자가 일상적으로 마주하는 상황을 포착한다. 예를 들어 실적 발표, 8kHz 전화 통화, 억양이 강한 의회 연설 등이다. 업계는 2024~2025년부터 이러한 두 번째 유형을 중심으로 재편되고 있으며, 2022년 설립되고 2024년 10월 Series A로 1,600만 달러를 조달한 파리 스타트업 Gladia에게 Solaria-3는 이러한 전환을 확인해주는 사례다.

가장 가까운 유럽 경쟁자는 Mistral AI의 Voxtral로, 2024년 7월 공개된 뒤 2026년 초 Voxtral Transcribe 2까지 반복 개선됐다. Gladia는 자사 주요 비교 표에서 Voxtral을 제외했지만, 세부 공개 내용에서는 잡음이 있는 오디오에서 Voxtral이 1.0%로 Solaria-3의 1.4%보다 우수하다고 밝히고 있다. 규제·컴플라이언스 측면에서 Gladia는 SOC 2 Type II, HIPAA, GDPR, ISO 27001 인증과 EU/US 클러스터를 내세운다. 다만 이는 주권성(souveraineté) 논거로 보더라도, 학습이 아니라 추론과 고객 데이터에 관한 주장이라는 점은 감안해야 한다.

전사 솔루션 공급업체를 선택하는 의사결정자라면, 평가 기준도 시장 변화에 맞춰 달라진다. 회의와 콜센터 중심의 사용 사례(Earnings22, Switchboard에 가까운 환경)라면 Solaria-3 테스트가 적합하다. 반면 광범위한 다국어 처리나 깨끗한 오디오(다큐멘터리 전사, 기관 낭독 등)라면 Solaria-1 또는 다른 경쟁 솔루션이 더 적절할 수 있다. Gladia의 선두 주장을 가를 핵심은 단 하나다. 제3의 평가자가 동일한 오디오 조건(Earnings22, Switchboard, 잡음 오디오)에서 WER를 측정해 공개하는 것이다. 여기에는 Voxtral, Whisper, 그리고 자사 비교에서 빠진 주요 클라우드 공급업체의 API도 포함되어야 한다.

Stephane Nachez

ActuIA 편집부 — 의사결정자를 위한 인공지능 뉴스, 데이터, 분석.

Solaria-3: Gladia, 자체 측정 기준 생산용 오디오에서 선두

양방향으로 읽히는 표

B2B 구매자에게 이 트레이드오프가 의미하는 것

Starbucks가 11,000개 매장에서 9개월 만에 NomadGo 컴퓨터 비전 도구를 철수

Cigref : 유럽의 클라우드 추가 비용 1,400억 유로, 번들형 AI가 두 번째 원인

ByteDance, 자체 Arm 및 RISC-V CPU 준비 중