Solaria-3: Gladia conduce la audio de producție, potrivit propriilor măsurători

Piața transcrierii prin API se orientează, începând cu 2024-2025, către audio de producție - ședințe zgomotoase, accente, telefonie - iar Solaria-3, lansat de Gladia pe 10 iunie 2026, confirmă această mutare printr-o alegere asumată: modelul avansează pe audio real, dar scade cu 36 % pe Multilingual LibriSpeech față de Solaria-1. Start-up-ul parizian revendică primul loc pe Earnings22 Cleaned AA cu un WER de 6,4 %, potrivit propriilor măsurători.

Acest compromis este asumat: Gladia păstrează Solaria-1 în paralel pentru cazuri de utilizare multilingve extinse. Beneficiul Solaria-3 nu este uniform pe limbi, potrivit Gladia (engleză -26 %, germană -3 % pe audio-ul său intern).

Un tablou care poate fi citit în ambele sensuri

Cifrele publicate de Gladia conturează o schimbare de specializare. Modelul avansează în condițiile de audio întâlnite de un call center - telefonie la 8 kHz, întâlniri cu mai mulți vorbitori, accente non-native - și pierde teren în condițiile de laborator, unde Solaria-1 își păstrează avantajul. Tabelul de mai jos preia măsurătorile publicate de Gladia pe 10 iunie 2026 (WER = word error rate, rata de eroare a cuvintelor transcrise).

Benchmark	Condiție audio	Solaria-3 WER	Referință	Sursă
Earnings22 Cleaned AA	discurs financiar / profesional	6,4 %	AssemblyAI Universal-2: 6,9 %	Gladia
Switchboard	telefonie degradată 8 kHz	33,9 %	ElevenLabs: 55,2 %	Gladia
Audio zgomotos	zgomot de fond	1,4 %	Mistral Voxtral: 1,0 %	Gladia
Multilingual LibriSpeech	audio citit în studio, multilingv	8,0 %	Solaria-1: 5,9 % (+36 %)	Gladia
VoxPopuli Cleaned AA	audio instituțional / parlamentar	2,9 %	Solaria-1: 2,2 % (+32 %)	Gladia

Potrivit Gladia, Solaria-3 depășește pe Earnings22 AssemblyAI Universal-2 cu 0,5 puncte (6,4 % față de 6,9 %) - o diferență care trebuie interpretată în marja de zgomot tipică măsurătorilor WER. Pe Switchboard, editorul își prezintă modelul ca fiind singurul din comparația internă care coboară sub 35 %. Totuși, perimetrul se restrânge: Solaria-3 este optimizat pentru cinci limbi europene (engleză, franceză, germană, spaniolă, italiană), în timp ce Solaria-1 este anunțat de Gladia pentru peste 100 de limbi, dintre care 42 exclusive. Toate aceste cifre se bazează pe dataset-ul intern al Gladia, proprietar și adnotat intern - acesta nu este public, ceea ce face imposibilă replicarea de către o terță parte în forma actuală.

Ce spune acest compromis despre piața STT pentru un cumpărător B2B

Earnings22, Switchboard și VoxPopuli surprind ceea ce întâlnește zilnic un cumpărător B2B: conferințe de rezultate, conversații telefonice la 8 kHz, discursuri parlamentare cu accente. Sectorul se redefinește în jurul acestui al doilea tip de audio începând cu 2024-2025, iar Solaria-3 confirmă această mutare pentru Gladia, start-up-ul parizian fondat în 2022 și finanțat printr-o rundă Series A de 16 milioane de dolari în octombrie 2024.

Cel mai apropiat concurent european este Voxtral de Mistral AI, publicat în iulie 2024 și iterat până la Voxtral Transcribe 2 la începutul lui 2026. Gladia alege să nu îl includă în tabelul său comparativ principal, deși Voxtral îl depășește pe audio zgomotos (1,0 % față de 1,4 % WER) în detaliile propriei publicații. Pe partea de conformitate, Gladia anunță certificările SOC 2 Type II, HIPAA, RGPD, ISO 27001, cu clustere EU și US - un argument de suveranitate care trebuie nuanțat: se referă la inferență și la datele clientului, nu la antrenare.

Pentru un factor de decizie care selectează un furnizor de transcriere, criteriul de evaluare se deplasează, așadar, odată cu piața. Un caz de utilizare centrat pe ședințe și call center-e (apropiat de Earnings22, Switchboard) cere un test pe Solaria-3; un scenariu multilingv extins sau un audio curat (transcriere de documentare, lectură instituțională) trimite către Solaria-1 sau către un concurent. Punctul care va tranșa revendicarea de lider a Gladia ține de o singură linie: publicarea, de către un evaluator terț, a unor măsurători WER în aceleași condiții audio - Earnings22, Switchboard, audio zgomotos - inclusiv Voxtral, Whisper și API-urile marilor furnizori cloud absenți din comparația internă.

Stephane Nachez

Redacția ActuIA — știri, date și analize despre inteligența artificială pentru decidenți.

Solaria-3: Gladia conduce la audio de producție, potrivit propriilor măsurători

Un tablou care poate fi citit în ambele sensuri

Ce spune acest compromis despre piața STT pentru un cumpărător B2B

Același model, măsuri de protecție diferite: ce dezvăluie lansarea Claude Fable 5 și Mythos 5

Starbucks retrage instrumentul de viziune computerizată NomadGo după nouă luni în 11.000 de magazine

Cigref: 140 miliarde de euro în costuri suplimentare cloud în Europa, IA în pachet a doua cauză