Solaria-3: Gladia aan kop in productie-audio, volgens eigen metingen

De API-transcriptiemarkt verschuift sinds 2024-2025 richting productie-audio - rumoerige vergaderingen, accenten, telefonie - en Solaria-3, gepubliceerd door Gladia op 10 juni 2026, bevestigt die verschuiving met een bewuste keuze: het model presteert beter op echte audio, maar zakt 36 % op Multilingual LibriSpeech ten opzichte van Solaria-1. De Parijse scale-up claimt de eerste plaats op Earnings22 Cleaned AA met 6,4 % WER, volgens haar eigen metingen.

Die afweging is bewust: Gladia houdt Solaria-1 parallel aan voor bredere meertalige use-cases. Het voordeel van Solaria-3 is volgens Gladia niet uniform per taal (Engels -26 %, Duits -3 % op interne audio).

Een tabel die je van twee kanten kunt lezen

De door Gladia gepubliceerde cijfers laten een duidelijke verschuiving in specialisatie zien. Het model wint terrein op de audiocondities waarmee een callcenter te maken krijgt - 8 kHz-telefonie, vergaderingen met meerdere sprekers, niet-native accenten - en verliest op laboratoriumcondities waar Solaria-1 nog de overhand houdt. De onderstaande tabel vat de metingen samen die Gladia op 10 juni 2026 publiceerde (WER = word error rate, foutpercentage op de getranscribeerde woorden).

Benchmark	Audioconditie	Solaria-3 WER	Referentie	Bron
Earnings22 Cleaned AA	financiële / professionele speech	6,4 %	AssemblyAI Universal-2: 6,9 %	Gladia
Switchboard	verstoorde 8 kHz-telefonie	33,9 %	ElevenLabs: 55,2 %	Gladia
Audio bruité	achtergrondgeluid	1,4 %	Mistral Voxtral: 1,0 %	Gladia
Multilingual LibriSpeech	in studio voorgelezen audio, meertalig	8,0 %	Solaria-1: 5,9 % (+36 %)	Gladia
VoxPopuli Cleaned AA	institutionele / parlementaire audio	2,9 %	Solaria-1: 2,2 % (+32 %)	Gladia

Volgens Gladia ligt Solaria-3 op Earnings22 0,5 procentpunt voor op AssemblyAI Universal-2 (6,4 % tegenover 6,9 %) - een verschil dat binnen de typische ruismarge van WER-metingen moet worden geïnterpreteerd. Op Switchboard positioneert de aanbieder zijn model als de enige in de eigen vergelijking die onder 35 % uitkomt. De scope is wel smaller geworden: Solaria-3 is geoptimaliseerd voor vijf Europese talen (Engels, Frans, Duits, Spaans, Italiaans), terwijl Solaria-1 volgens Gladia meer dan 100 talen ondersteunt, waarvan 42 exclusief. Al deze cijfers zijn gebaseerd op Gladia’s interne dataset, die eigendom is van het bedrijf en intern geannoteerd werd - deze is niet publiek beschikbaar, waardoor onafhankelijke reproductie momenteel onmogelijk is.

Wat deze trade-off zegt over de STT-markt voor een B2B-koper

Earnings22, Switchboard en VoxPopuli vangen precies de situaties waarmee een B2B-koper dagelijks te maken krijgt: earnings calls, 8 kHz-telefoongesprekken, geaccentueerde parlementaire toespraken. De sector herdefinieert zich sinds 2024-2025 rond dat tweede type, en Solaria-3 bevestigt die verschuiving voor Gladia, de Parijse scale-up die in 2022 werd opgericht en in oktober 2024 een Series A van 16 M$ ophaalde.

De dichtstbijzijnde Europese concurrent is Voxtral van Mistral AI, gepubliceerd in juli 2024 en daarna doorontwikkeld tot Voxtral Transcribe 2 begin 2026. Gladia kiest ervoor om die niet op te nemen in de belangrijkste vergelijkende tabel, terwijl Voxtral in de details van dezelfde publicatie juist beter scoort op rumoerige audio (1,0 % tegenover 1,4 % WER). Op het vlak van compliance noemt Gladia SOC 2 Type II, HIPAA, GDPR en ISO 27001, met EU- en US-clusters - een soevereiniteitsargument dat wel genuanceerd moet worden: het gaat om inferentie en klantdata, niet om training.

Voor een beslisser die een transcriptieleverancier selecteert, verschuift het evaluatiecriterium dus mee met de markt. Een use-case rond vergaderingen en callcenters (dicht bij Earnings22 en Switchboard) vraagt om een test met Solaria-3; een brede meertalige context of schone audio (documentairetranscriptie, institutionele voorlezingen) wijst eerder naar Solaria-1 of een concurrent. Het punt dat Gladia’s claim op leiderschap uiteindelijk zal bepalen, is in één zin samen te vatten: de publicatie, door een onafhankelijke evaluator, van WER-metingen onder dezelfde audiocondities - Earnings22, Switchboard, rumoerige audio - inclusief Voxtral, Whisper en de API’s van de grote cloudproviders die in de eigen vergelijking ontbreken.

Stephane Nachez

Redactie ActuIA — nieuws, data en analyses over kunstmatige intelligentie voor besluitvormers.

Solaria-3: Gladia aan kop in productie-audio, volgens eigen metingen

Een tabel die je van twee kanten kunt lezen

Wat deze trade-off zegt over de STT-markt voor een B2B-koper

Starbucks haalt het computer vision-tool NomadGo na negen maanden uit 11.000 winkels

Cigref: 140 mld€ extra cloudkosten in Europa, AI als bundel tweede oorzaak

ByteDance bereidt zijn eigen Arm- en RISC-V-CPU's voor om de controle over de kost per token terug te nemen