El mercado de la transcripción por API se está desplazando desde 2024-2025 hacia el audio de producción —reuniones ruidosas, acentos, telefonía— y Solaria-3, publicado por Gladia el 10 de junio de 2026, ratifica ese cambio mediante una elección deliberada: el modelo mejora con audio real, pero cae un 36 % en Multilingual LibriSpeech frente a Solaria-1. La startup parisina reivindica el primer puesto en Earnings22 Cleaned AA con un 6,4 % de WER, según sus propias métricas.
Este trade-off es asumido: Gladia mantiene Solaria-1 en paralelo para los casos de uso multilingües amplios. La mejora de Solaria-3 no es uniforme por idioma, según Gladia (inglés -26 %, alemán -3 % en su audio interno).
Una tabla que se lee en ambos sentidos
Las cifras publicadas por Gladia dibujan un giro de especialización. El modelo mejora en las condiciones de audio que encuentra un call center —telefonía 8 kHz, reuniones con varios interlocutores, acentos no nativos— y retrocede en las condiciones de laboratorio donde Solaria-1 conserva la ventaja. La tabla siguiente recoge las mediciones publicadas por Gladia el 10 de junio de 2026 (WER = word error rate, tasa de error sobre las palabras transcritas).
| Benchmark | Condición de audio | Solaria-3 WER | Referencia | Fuente |
|---|---|---|---|---|
| Earnings22 Cleaned AA | discurso financiero / profesional | 6,4 % | AssemblyAI Universal-2: 6,9 % | Gladia |
| Switchboard | telefonía degradada 8 kHz | 33,9 % | ElevenLabs: 55,2 % | Gladia |
| Audio ruidoso | ruido de fondo | 1,4 % | Mistral Voxtral: 1,0 % | Gladia |
| Multilingual LibriSpeech | audio leído en estudio, multilingüe | 8,0 % | Solaria-1: 5,9 % (+36 %) | Gladia |
| VoxPopuli Cleaned AA | audio institucional / parlamentario | 2,9 % | Solaria-1: 2,2 % (+32 %) | Gladia |
Según Gladia, Solaria-3 supera a AssemblyAI Universal-2 en Earnings22 por 0,5 puntos (6,4 % frente a 6,9 %), una diferencia que debe interpretarse dentro del margen de ruido típico de las mediciones WER. En Switchboard, el editor presenta su modelo como el único de su comparativa interna que baja del 35 %. Sin embargo, el perímetro se estrecha: Solaria-3 está optimizado para cinco idiomas europeos (inglés, francés, alemán, español, italiano), mientras que Solaria-1 sigue anunciado por Gladia para más de 100 idiomas, de los cuales 42 son exclusivos. Todas estas cifras se basan en el dataset interno de Gladia, de propiedad y anotación internas; no es público, lo que hace imposible su replicación por terceros en el estado actual.
Lo que este trade-off dice del mercado STT para un comprador B2B
Earnings22, Switchboard y VoxPopuli capturan lo que un comprador B2B se encuentra a diario: presentaciones de resultados, conversaciones telefónicas 8 kHz, discursos parlamentarios con acento. El sector se está redefiniendo en torno a este segundo tipo desde 2024-2025, y Solaria-3 ratifica ese cambio para Gladia, la startup parisina fundada en 2022 y financiada por una ronda de 16 M$ en Series A en octubre de 2024.
El competidor europeo más cercano es Voxtral de Mistral AI, publicado en julio de 2024 y luego iterado hasta Voxtral Transcribe 2 a comienzos de 2026. Gladia opta por no incluirlo en su tabla comparativa principal, aun cuando Voxtral lo supera en audio ruidoso (1,0 % frente a 1,4 % de WER) en el detalle de su propia publicación. En materia de cumplimiento, Gladia anuncia las certificaciones SOC 2 Type II, HIPAA, RGPD e ISO 27001, con clusters en la UE y EE. UU. —un argumento de soberanía que debe ponderarse: se refiere a la inferencia y a los datos del cliente, no al entrenamiento.
Para un decisor que selecciona un proveedor de transcripción, el criterio de evaluación se desplaza, por tanto, con el mercado. Un caso de uso centrado en reuniones y call centers (cercano a Earnings22 y Switchboard) pide una prueba con Solaria-3; un multilingüe amplio o un audio limpio (transcripción de documentales, lectura institucional) remite a Solaria-1 o a un competidor. El punto que resolverá la afirmación de liderazgo de Gladia cabe en una sola línea: la publicación, por parte de un evaluador tercero, de mediciones WER sobre las mismas condiciones de audio —Earnings22, Switchboard, audio ruidoso— incluyendo Voxtral, Whisper y las APIs de los grandes proveedores cloud ausentes de la comparativa interna.
