Solaria-3: Gladia na czele w audio produkcyjnym, według własnych pomiarów

Rynek transkrypcji przez API od 2024–2025 roku przesuwa się w stronę audio produkcyjnego — hałaśliwych spotkań, akcentów i telefonii — a Solaria-3, opublikowany przez Gladia 10 czerwca 2026 roku, potwierdza tę zmianę poprzez świadomy wybór: model poprawia wyniki na rzeczywistym audio, ale traci 36% na Multilingual LibriSpeech względem Solaria-1. Paryjski startup deklaruje pierwsze miejsce w Earnings22 Cleaned AA z wynikiem 6,4% WER, według własnych pomiarów.

Ten kompromis jest zamierzony: Gladia utrzymuje Solaria-1 równolegle dla szerokich, wielojęzycznych zastosowań. Korzyść Solaria-3 nie jest jednak jednolita w zależności od języka, według Gladia (angielski −26%, niemiecki −3% na jego wewnętrznym audio).

Tabela, którą można czytać w obie strony

Opublikowane przez Gladia dane pokazują przesunięcie w stronę specjalizacji. Model lepiej radzi sobie w warunkach audio spotykanych w call center — telefonia 8 kHz, spotkania z wieloma rozmówcami, nie-native accents — a słabiej w warunkach laboratoryjnych, w których Solaria-1 zachowuje przewagę. Poniższa tabela przedstawia pomiary opublikowane przez Gladia 10 czerwca 2026 roku (WER = word error rate, wskaźnik błędów w transkrybowanych słowach).

Benchmark	Warunki audio	Solaria-3 WER	Referencja	Źródło
Earnings22 Cleaned AA	speech finansowy / biznesowy	6,4%	AssemblyAI Universal-2: 6,9%	Gladia
Switchboard	zdegradowana telefonia 8 kHz	33,9%	ElevenLabs: 55,2%	Gladia
Audio bruité	szum tła	1,4%	Mistral Voxtral: 1,0%	Gladia
Multilingual LibriSpeech	czytane audio studyjne, wielojęzyczne	8,0%	Solaria-1: 5,9% (+36%)	Gladia
VoxPopuli Cleaned AA	audio instytucjonalne / parlamentarne	2,9%	Solaria-1: 2,2% (+32%)	Gladia

Według Gladia Solaria-3 wyprzedza na Earnings22 model AssemblyAI Universal-2 o 0,5 punktu (6,4% wobec 6,9%) — różnica, którą należy interpretować w granicach typowego szumu pomiarowego WER. W Switchboard wydawca przedstawia swój model jako jedyny w wewnętrznym porównaniu, który schodzi poniżej 35%. Zakres jest jednak węższy: Solaria-3 jest zoptymalizowany pod pięć języków europejskich (angielski, francuski, niemiecki, hiszpański, włoski), podczas gdy Solaria-1 pozostaje według Gladia dostępny w ponad 100 językach, w tym 42 wyłącznych. Wszystkie te liczby opierają się na wewnętrznym zbiorze danych Gladia, własnościowym i anotowanym wewnętrznie — nie jest on publiczny, co uniemożliwia niezależną replikację w obecnym kształcie.

Co ten kompromis mówi o rynku STT z perspektywy nabywcy B2B

Earnings22, Switchboard i VoxPopuli odzwierciedlają to, z czym nabywca B2B mierzy się na co dzień: konferencje wynikowe, rozmowy telefoniczne 8 kHz, akcentowane przemówienia parlamentarne. Branża od 2024–2025 roku redefiniuje się właśnie wokół tego drugiego typu danych, a Solaria-3 potwierdza tę zmianę w przypadku Gladia — paryskiego startupu założonego w 2022 roku i finansowanego rundą Series A o wartości 16 mln USD w październiku 2024 roku.

Najbliższym europejskim konkurentem jest Voxtral od Mistral AI, opublikowany w lipcu 2024 roku, a następnie rozwijany aż do Voxtral Transcribe 2 na początku 2026 roku. Gladia decyduje się nie uwzględniać go w głównej tabeli porównawczej, mimo że Voxtral wyprzedza Solaria-3 na audio z zakłóceniami (1,0% wobec 1,4% WER) w szczegółach własnej publikacji. Po stronie zgodności Gladia deklaruje certyfikacje SOC 2 Type II, HIPAA, RODO i ISO 27001 oraz klastry EU i US — to argument suwerenności, który należy jednak odpowiednio ważyć: dotyczy inferencji i danych klienta, a nie treningu.

Dla decydenta wybierającego dostawcę transkrypcji kryterium oceny przesuwa się więc wraz z rynkiem. Zastosowanie skoncentrowane na spotkaniach i call center (bliskie Earnings22 i Switchboard) wymaga testu na Solaria-3; szerokie scenariusze wielojęzyczne lub czyste audio (transkrypcja dokumentów, odczyty instytucjonalne) kierują uwagę ku Solaria-1 albo konkurencji. Punkt, który rozstrzygnie o deklarowanej przewadze Gladia, sprowadza się do jednego elementu: publikacji przez niezależnego ewaluatora pomiarów WER w tych samych warunkach audio — Earnings22, Switchboard, audio z zakłóceniami — obejmujących Voxtral, Whisper i API największych dostawców chmurowych, nieobecnych w wewnętrznym porównaniu.

Stephane Nachez

Redakcja ActuIA — wiadomości, dane i analizy o sztucznej inteligencji dla decydentów.

Solaria-3: Gladia na czele w audio produkcyjnym, według własnych pomiarów

Tabela, którą można czytać w obie strony

Co ten kompromis mówi o rynku STT z perspektywy nabywcy B2B

Machine unlearning: Google Research potwierdza test audytowy, ale jeszcze nie dla LLM-ów

Starbucks wycofuje narzędzie wizji komputerowej NomadGo po dziewięciu miesiącach w 11 000 sklepach

Cigref: 140 mld € dodatkowych kosztów chmury w Europie, AI w pakiecie na drugim miejscu jako przyczyna