Piața transcrierii prin API se orientează, începând cu 2024-2025, către audio de producție - ședințe zgomotoase, accente, telefonie - iar Solaria-3, lansat de Gladia pe 10 iunie 2026, confirmă această mutare printr-o alegere asumată: modelul avansează pe audio real, dar scade cu 36 % pe Multilingual LibriSpeech față de Solaria-1. Start-up-ul parizian revendică primul loc pe Earnings22 Cleaned AA cu un WER de 6,4 %, potrivit propriilor măsurători.
Acest compromis este asumat: Gladia păstrează Solaria-1 în paralel pentru cazuri de utilizare multilingve extinse. Beneficiul Solaria-3 nu este uniform pe limbi, potrivit Gladia (engleză -26 %, germană -3 % pe audio-ul său intern).
Un tablou care poate fi citit în ambele sensuri
Cifrele publicate de Gladia conturează o schimbare de specializare. Modelul avansează în condițiile de audio întâlnite de un call center - telefonie la 8 kHz, întâlniri cu mai mulți vorbitori, accente non-native - și pierde teren în condițiile de laborator, unde Solaria-1 își păstrează avantajul. Tabelul de mai jos preia măsurătorile publicate de Gladia pe 10 iunie 2026 (WER = word error rate, rata de eroare a cuvintelor transcrise).
| Benchmark | Condiție audio | Solaria-3 WER | Referință | Sursă |
|---|---|---|---|---|
| Earnings22 Cleaned AA | discurs financiar / profesional | 6,4 % | AssemblyAI Universal-2: 6,9 % | Gladia |
| Switchboard | telefonie degradată 8 kHz | 33,9 % | ElevenLabs: 55,2 % | Gladia |
| Audio zgomotos | zgomot de fond | 1,4 % | Mistral Voxtral: 1,0 % | Gladia |
| Multilingual LibriSpeech | audio citit în studio, multilingv | 8,0 % | Solaria-1: 5,9 % (+36 %) | Gladia |
| VoxPopuli Cleaned AA | audio instituțional / parlamentar | 2,9 % | Solaria-1: 2,2 % (+32 %) | Gladia |
Potrivit Gladia, Solaria-3 depășește pe Earnings22 AssemblyAI Universal-2 cu 0,5 puncte (6,4 % față de 6,9 %) - o diferență care trebuie interpretată în marja de zgomot tipică măsurătorilor WER. Pe Switchboard, editorul își prezintă modelul ca fiind singurul din comparația internă care coboară sub 35 %. Totuși, perimetrul se restrânge: Solaria-3 este optimizat pentru cinci limbi europene (engleză, franceză, germană, spaniolă, italiană), în timp ce Solaria-1 este anunțat de Gladia pentru peste 100 de limbi, dintre care 42 exclusive. Toate aceste cifre se bazează pe dataset-ul intern al Gladia, proprietar și adnotat intern - acesta nu este public, ceea ce face imposibilă replicarea de către o terță parte în forma actuală.
Ce spune acest compromis despre piața STT pentru un cumpărător B2B
Earnings22, Switchboard și VoxPopuli surprind ceea ce întâlnește zilnic un cumpărător B2B: conferințe de rezultate, conversații telefonice la 8 kHz, discursuri parlamentare cu accente. Sectorul se redefinește în jurul acestui al doilea tip de audio începând cu 2024-2025, iar Solaria-3 confirmă această mutare pentru Gladia, start-up-ul parizian fondat în 2022 și finanțat printr-o rundă Series A de 16 milioane de dolari în octombrie 2024.
Cel mai apropiat concurent european este Voxtral de Mistral AI, publicat în iulie 2024 și iterat până la Voxtral Transcribe 2 la începutul lui 2026. Gladia alege să nu îl includă în tabelul său comparativ principal, deși Voxtral îl depășește pe audio zgomotos (1,0 % față de 1,4 % WER) în detaliile propriei publicații. Pe partea de conformitate, Gladia anunță certificările SOC 2 Type II, HIPAA, RGPD, ISO 27001, cu clustere EU și US - un argument de suveranitate care trebuie nuanțat: se referă la inferență și la datele clientului, nu la antrenare.
Pentru un factor de decizie care selectează un furnizor de transcriere, criteriul de evaluare se deplasează, așadar, odată cu piața. Un caz de utilizare centrat pe ședințe și call center-e (apropiat de Earnings22, Switchboard) cere un test pe Solaria-3; un scenariu multilingv extins sau un audio curat (transcriere de documentare, lectură instituțională) trimite către Solaria-1 sau către un concurent. Punctul care va tranșa revendicarea de lider a Gladia ține de o singură linie: publicarea, de către un evaluator terț, a unor măsurători WER în aceleași condiții audio - Earnings22, Switchboard, audio zgomotos - inclusiv Voxtral, Whisper și API-urile marilor furnizori cloud absenți din comparația internă.
