Solaria-3: Gladia in testa sull’audio di produzione, secondo le proprie misure

Il mercato della trascrizione via API sta virando dal 2024-2025 verso l’audio di produzione - riunioni rumorose, accenti, telefonia - e Solaria-3, pubblicato da Gladia il 10 giugno 2026, ratifica questo spostamento con una scelta deliberata: il modello migliora sull’audio reale ma arretra del 36 % su Multilingual LibriSpeech rispetto a Solaria-1. La startup parigina rivendica il primo posto su Earnings22 Cleaned AA con un WER del 6,4 %, secondo le proprie misurazioni.

Questo trade-off è dichiarato: Gladia mantiene Solaria-1 in parallelo per i casi d’uso multilingue estesi. Il vantaggio di Solaria-3 non è uniforme per lingua secondo Gladia (inglese -26 %, tedesco -3 % sul suo audio interno).

Una tabella che si legge in entrambi i sensi

I numeri pubblicati da Gladia delineano un cambio di specializzazione. Il modello migliora nelle condizioni audio che si incontrano in un call center - telefonia a 8 kHz, riunioni multi-speaker, accenti non nativi - e arretra nelle condizioni da laboratorio in cui Solaria-1 mantiene il vantaggio. La tabella seguente riprende le misure pubblicate da Gladia il 10 giugno 2026 (WER = word error rate, tasso di errore sulle parole trascritte).

Benchmark	Condizione audio	Solaria-3 WER	Riferimento	Fonte
Earnings22 Cleaned AA	discorso finanziario / professionale	6,4 %	AssemblyAI Universal-2: 6,9 %	Gladia
Switchboard	telefonia degradata 8 kHz	33,9 %	ElevenLabs: 55,2 %	Gladia
Audio rumoroso	rumore di fondo	1,4 %	Mistral Voxtral: 1,0 %	Gladia
Multilingual LibriSpeech	audio letto in studio, multilingue	8,0 %	Solaria-1: 5,9 % (+36 %)	Gladia
VoxPopuli Cleaned AA	audio istituzionale / parlamentare	2,9 %	Solaria-1: 2,2 % (+32 %)	Gladia

Secondo Gladia, Solaria-3 supera su Earnings22 AssemblyAI Universal-2 di 0,5 punti (6,4 % contro 6,9 %) - uno scarto da interpretare entro il margine di rumore tipico delle misure WER. Su Switchboard, l’editore presenta il suo modello come l’unico del confronto interno a scendere sotto il 35 %. Il perimetro però si restringe: Solaria-3 è ottimizzato per cinque lingue europee (inglese, francese, tedesco, spagnolo, italiano), mentre Solaria-1 resta dichiarato da Gladia per oltre 100 lingue, di cui 42 esclusive. Tutti questi numeri si basano sul dataset interno di Gladia, proprietario e annotato internamente - non è pubblico, il che rende impossibile la replica da parte di terzi allo stato attuale.

Cosa dice questo trade-off del mercato STT per un acquirente B2B

Earnings22, Switchboard e VoxPopuli catturano ciò che un acquirente B2B incontra ogni giorno: conference call sui risultati, conversazioni telefoniche a 8 kHz, discorsi parlamentari con accento. Il settore si sta ridefinendo attorno a questo secondo tipo dal 2024-2025, e Solaria-3 ratifica questo spostamento per Gladia, la startup parigina fondata nel 2022 e finanziata da un round Series A da 16 M$ nell’ottobre 2024.

Il concorrente europeo più vicino è Voxtral di Mistral AI, pubblicato nel luglio 2024 e poi iterato fino a Voxtral Transcribe 2 all’inizio del 2026. Gladia sceglie di non includerlo nella propria tabella comparativa principale, pur essendo Voxtral davanti sull’audio rumoroso (1,0 % contro 1,4 % WER) nel dettaglio della sua stessa pubblicazione. Sul fronte della conformità, Gladia annuncia le certificazioni SOC 2 Type II, HIPAA, GDPR, ISO 27001, con cluster EU e US - un argomento di sovranità da pesare con attenzione: riguarda l’inferenza e i dati del cliente, non l’addestramento.

Per un decisore che seleziona un fornitore di trascrizione, il criterio di valutazione si sposta quindi insieme al mercato. Un caso d’uso centrato su riunioni e call center (vicino a Earnings22, Switchboard) richiede un test su Solaria-3; un multilingue esteso o un audio pulito (trascrizione di documentari, lettura istituzionale) rimanda a Solaria-1 o a un concorrente. Il punto che dirimerà la rivendicazione di leadership di Gladia sta in una sola riga: la pubblicazione, da parte di un valutatore terzo, di misure WER sulle stesse condizioni audio - Earnings22, Switchboard, audio rumoroso - includendo Voxtral, Whisper e le API dei grandi fornitori cloud assenti dal confronto interno.

Stephane Nachez

Redazione ActuIA — notizie, dati e analisi sull'intelligenza artificiale per i decisori.

Solaria-3: Gladia in testa sull’audio di produzione, secondo le proprie misure

Una tabella che si legge in entrambi i sensi

Cosa dice questo trade-off del mercato STT per un acquirente B2B

Perché la voce di un cloud Meta fa crollare i neocloud

Starbucks ritira lo strumento di visione artificiale NomadGo dopo nove mesi in 11.000 negozi

Cigref: 140 miliardi di euro di costi aggiuntivi per il cloud in Europa, l'IA in bundle è la seconda causa