Rundă de finanțare

Solaria-3: Gladia conduce la audio de producție, potrivit propriilor măsurători

Gladia susține că Solaria-3 este lider pe audio de producție, cu 6,4 % WER pe Earnings22 Cleaned AA și rezultate solide pe telefonie degradată și audio zgomotos, dar modelul pierde teren pe benchmark-urile de laborator și pe multilingv, unde Solaria-1 rămâne mai puternic.

STStephane Nachez · ·4 min
Solaria-3: Gladia conduce la audio de producție, potrivit propriilor măsurători
Cuprins

Piața transcrierii prin API se orientează, începând cu 2024-2025, către audio de producție - ședințe zgomotoase, accente, telefonie - iar Solaria-3, lansat de Gladia pe 10 iunie 2026, confirmă această mutare printr-o alegere asumată: modelul avansează pe audio real, dar scade cu 36 % pe Multilingual LibriSpeech față de Solaria-1. Start-up-ul parizian revendică primul loc pe Earnings22 Cleaned AA cu un WER de 6,4 %, potrivit propriilor măsurători.

Acest compromis este asumat: Gladia păstrează Solaria-1 în paralel pentru cazuri de utilizare multilingve extinse. Beneficiul Solaria-3 nu este uniform pe limbi, potrivit Gladia (engleză -26 %, germană -3 % pe audio-ul său intern).

Un tablou care poate fi citit în ambele sensuri

Cifrele publicate de Gladia conturează o schimbare de specializare. Modelul avansează în condițiile de audio întâlnite de un call center - telefonie la 8 kHz, întâlniri cu mai mulți vorbitori, accente non-native - și pierde teren în condițiile de laborator, unde Solaria-1 își păstrează avantajul. Tabelul de mai jos preia măsurătorile publicate de Gladia pe 10 iunie 2026 (WER = word error rate, rata de eroare a cuvintelor transcrise).

Benchmark Condiție audio Solaria-3 WER Referință Sursă
Earnings22 Cleaned AA discurs financiar / profesional 6,4 % AssemblyAI Universal-2: 6,9 % Gladia
Switchboard telefonie degradată 8 kHz 33,9 % ElevenLabs: 55,2 % Gladia
Audio zgomotos zgomot de fond 1,4 % Mistral Voxtral: 1,0 % Gladia
Multilingual LibriSpeech audio citit în studio, multilingv 8,0 % Solaria-1: 5,9 % (+36 %) Gladia
VoxPopuli Cleaned AA audio instituțional / parlamentar 2,9 % Solaria-1: 2,2 % (+32 %) Gladia

Potrivit Gladia, Solaria-3 depășește pe Earnings22 AssemblyAI Universal-2 cu 0,5 puncte (6,4 % față de 6,9 %) - o diferență care trebuie interpretată în marja de zgomot tipică măsurătorilor WER. Pe Switchboard, editorul își prezintă modelul ca fiind singurul din comparația internă care coboară sub 35 %. Totuși, perimetrul se restrânge: Solaria-3 este optimizat pentru cinci limbi europene (engleză, franceză, germană, spaniolă, italiană), în timp ce Solaria-1 este anunțat de Gladia pentru peste 100 de limbi, dintre care 42 exclusive. Toate aceste cifre se bazează pe dataset-ul intern al Gladia, proprietar și adnotat intern - acesta nu este public, ceea ce face imposibilă replicarea de către o terță parte în forma actuală.

Ce spune acest compromis despre piața STT pentru un cumpărător B2B

Earnings22, Switchboard și VoxPopuli surprind ceea ce întâlnește zilnic un cumpărător B2B: conferințe de rezultate, conversații telefonice la 8 kHz, discursuri parlamentare cu accente. Sectorul se redefinește în jurul acestui al doilea tip de audio începând cu 2024-2025, iar Solaria-3 confirmă această mutare pentru Gladia, start-up-ul parizian fondat în 2022 și finanțat printr-o rundă Series A de 16 milioane de dolari în octombrie 2024.

Cel mai apropiat concurent european este Voxtral de Mistral AI, publicat în iulie 2024 și iterat până la Voxtral Transcribe 2 la începutul lui 2026. Gladia alege să nu îl includă în tabelul său comparativ principal, deși Voxtral îl depășește pe audio zgomotos (1,0 % față de 1,4 % WER) în detaliile propriei publicații. Pe partea de conformitate, Gladia anunță certificările SOC 2 Type II, HIPAA, RGPD, ISO 27001, cu clustere EU și US - un argument de suveranitate care trebuie nuanțat: se referă la inferență și la datele clientului, nu la antrenare.

Pentru un factor de decizie care selectează un furnizor de transcriere, criteriul de evaluare se deplasează, așadar, odată cu piața. Un caz de utilizare centrat pe ședințe și call center-e (apropiat de Earnings22, Switchboard) cere un test pe Solaria-3; un scenariu multilingv extins sau un audio curat (transcriere de documentare, lectură instituțională) trimite către Solaria-1 sau către un concurent. Punctul care va tranșa revendicarea de lider a Gladia ține de o singură linie: publicarea, de către un evaluator terț, a unor măsurători WER în aceleași condiții audio - Earnings22, Switchboard, audio zgomotos - inclusiv Voxtral, Whisper și API-urile marilor furnizori cloud absenți din comparația internă.

ST
Stephane Nachez

Redacția ActuIA — știri, date și analize despre inteligența artificială pentru decidenți.

Actori menționați
GLGladia
ELElevenLabs
MIMistral AI
Săptămânalul ActuIA

Abonare confirmată, pe curând!

VT News — VivaTech