Rynek transkrypcji przez API od 2024–2025 roku przesuwa się w stronę audio produkcyjnego — hałaśliwych spotkań, akcentów i telefonii — a Solaria-3, opublikowany przez Gladia 10 czerwca 2026 roku, potwierdza tę zmianę poprzez świadomy wybór: model poprawia wyniki na rzeczywistym audio, ale traci 36% na Multilingual LibriSpeech względem Solaria-1. Paryjski startup deklaruje pierwsze miejsce w Earnings22 Cleaned AA z wynikiem 6,4% WER, według własnych pomiarów.
Ten kompromis jest zamierzony: Gladia utrzymuje Solaria-1 równolegle dla szerokich, wielojęzycznych zastosowań. Korzyść Solaria-3 nie jest jednak jednolita w zależności od języka, według Gladia (angielski −26%, niemiecki −3% na jego wewnętrznym audio).
Tabela, którą można czytać w obie strony
Opublikowane przez Gladia dane pokazują przesunięcie w stronę specjalizacji. Model lepiej radzi sobie w warunkach audio spotykanych w call center — telefonia 8 kHz, spotkania z wieloma rozmówcami, nie-native accents — a słabiej w warunkach laboratoryjnych, w których Solaria-1 zachowuje przewagę. Poniższa tabela przedstawia pomiary opublikowane przez Gladia 10 czerwca 2026 roku (WER = word error rate, wskaźnik błędów w transkrybowanych słowach).
| Benchmark | Warunki audio | Solaria-3 WER | Referencja | Źródło |
|---|---|---|---|---|
| Earnings22 Cleaned AA | speech finansowy / biznesowy | 6,4% | AssemblyAI Universal-2: 6,9% | Gladia |
| Switchboard | zdegradowana telefonia 8 kHz | 33,9% | ElevenLabs: 55,2% | Gladia |
| Audio bruité | szum tła | 1,4% | Mistral Voxtral: 1,0% | Gladia |
| Multilingual LibriSpeech | czytane audio studyjne, wielojęzyczne | 8,0% | Solaria-1: 5,9% (+36%) | Gladia |
| VoxPopuli Cleaned AA | audio instytucjonalne / parlamentarne | 2,9% | Solaria-1: 2,2% (+32%) | Gladia |
Według Gladia Solaria-3 wyprzedza na Earnings22 model AssemblyAI Universal-2 o 0,5 punktu (6,4% wobec 6,9%) — różnica, którą należy interpretować w granicach typowego szumu pomiarowego WER. W Switchboard wydawca przedstawia swój model jako jedyny w wewnętrznym porównaniu, który schodzi poniżej 35%. Zakres jest jednak węższy: Solaria-3 jest zoptymalizowany pod pięć języków europejskich (angielski, francuski, niemiecki, hiszpański, włoski), podczas gdy Solaria-1 pozostaje według Gladia dostępny w ponad 100 językach, w tym 42 wyłącznych. Wszystkie te liczby opierają się na wewnętrznym zbiorze danych Gladia, własnościowym i anotowanym wewnętrznie — nie jest on publiczny, co uniemożliwia niezależną replikację w obecnym kształcie.
Co ten kompromis mówi o rynku STT z perspektywy nabywcy B2B
Earnings22, Switchboard i VoxPopuli odzwierciedlają to, z czym nabywca B2B mierzy się na co dzień: konferencje wynikowe, rozmowy telefoniczne 8 kHz, akcentowane przemówienia parlamentarne. Branża od 2024–2025 roku redefiniuje się właśnie wokół tego drugiego typu danych, a Solaria-3 potwierdza tę zmianę w przypadku Gladia — paryskiego startupu założonego w 2022 roku i finansowanego rundą Series A o wartości 16 mln USD w październiku 2024 roku.
Najbliższym europejskim konkurentem jest Voxtral od Mistral AI, opublikowany w lipcu 2024 roku, a następnie rozwijany aż do Voxtral Transcribe 2 na początku 2026 roku. Gladia decyduje się nie uwzględniać go w głównej tabeli porównawczej, mimo że Voxtral wyprzedza Solaria-3 na audio z zakłóceniami (1,0% wobec 1,4% WER) w szczegółach własnej publikacji. Po stronie zgodności Gladia deklaruje certyfikacje SOC 2 Type II, HIPAA, RODO i ISO 27001 oraz klastry EU i US — to argument suwerenności, który należy jednak odpowiednio ważyć: dotyczy inferencji i danych klienta, a nie treningu.
Dla decydenta wybierającego dostawcę transkrypcji kryterium oceny przesuwa się więc wraz z rynkiem. Zastosowanie skoncentrowane na spotkaniach i call center (bliskie Earnings22 i Switchboard) wymaga testu na Solaria-3; szerokie scenariusze wielojęzyczne lub czyste audio (transkrypcja dokumentów, odczyty instytucjonalne) kierują uwagę ku Solaria-1 albo konkurencji. Punkt, który rozstrzygnie o deklarowanej przewadze Gladia, sprowadza się do jednego elementu: publikacji przez niezależnego ewaluatora pomiarów WER w tych samych warunkach audio — Earnings22, Switchboard, audio z zakłóceniami — obejmujących Voxtral, Whisper i API największych dostawców chmurowych, nieobecnych w wewnętrznym porównaniu.
