Solaria-3: Gladia lidera en audio de producción, según sus propias métricas

El mercado de la transcripción por API se está desplazando desde 2024-2025 hacia el audio de producción —reuniones ruidosas, acentos, telefonía— y Solaria-3, publicado por Gladia el 10 de junio de 2026, ratifica ese cambio mediante una elección deliberada: el modelo mejora con audio real, pero cae un 36 % en Multilingual LibriSpeech frente a Solaria-1. La startup parisina reivindica el primer puesto en Earnings22 Cleaned AA con un 6,4 % de WER, según sus propias métricas.

Este trade-off es asumido: Gladia mantiene Solaria-1 en paralelo para los casos de uso multilingües amplios. La mejora de Solaria-3 no es uniforme por idioma, según Gladia (inglés -26 %, alemán -3 % en su audio interno).

Una tabla que se lee en ambos sentidos

Las cifras publicadas por Gladia dibujan un giro de especialización. El modelo mejora en las condiciones de audio que encuentra un call center —telefonía 8 kHz, reuniones con varios interlocutores, acentos no nativos— y retrocede en las condiciones de laboratorio donde Solaria-1 conserva la ventaja. La tabla siguiente recoge las mediciones publicadas por Gladia el 10 de junio de 2026 (WER = word error rate, tasa de error sobre las palabras transcritas).

Benchmark	Condición de audio	Solaria-3 WER	Referencia	Fuente
Earnings22 Cleaned AA	discurso financiero / profesional	6,4 %	AssemblyAI Universal-2: 6,9 %	Gladia
Switchboard	telefonía degradada 8 kHz	33,9 %	ElevenLabs: 55,2 %	Gladia
Audio ruidoso	ruido de fondo	1,4 %	Mistral Voxtral: 1,0 %	Gladia
Multilingual LibriSpeech	audio leído en estudio, multilingüe	8,0 %	Solaria-1: 5,9 % (+36 %)	Gladia
VoxPopuli Cleaned AA	audio institucional / parlamentario	2,9 %	Solaria-1: 2,2 % (+32 %)	Gladia

Según Gladia, Solaria-3 supera a AssemblyAI Universal-2 en Earnings22 por 0,5 puntos (6,4 % frente a 6,9 %), una diferencia que debe interpretarse dentro del margen de ruido típico de las mediciones WER. En Switchboard, el editor presenta su modelo como el único de su comparativa interna que baja del 35 %. Sin embargo, el perímetro se estrecha: Solaria-3 está optimizado para cinco idiomas europeos (inglés, francés, alemán, español, italiano), mientras que Solaria-1 sigue anunciado por Gladia para más de 100 idiomas, de los cuales 42 son exclusivos. Todas estas cifras se basan en el dataset interno de Gladia, de propiedad y anotación internas; no es público, lo que hace imposible su replicación por terceros en el estado actual.

Lo que este trade-off dice del mercado STT para un comprador B2B

Earnings22, Switchboard y VoxPopuli capturan lo que un comprador B2B se encuentra a diario: presentaciones de resultados, conversaciones telefónicas 8 kHz, discursos parlamentarios con acento. El sector se está redefiniendo en torno a este segundo tipo desde 2024-2025, y Solaria-3 ratifica ese cambio para Gladia, la startup parisina fundada en 2022 y financiada por una ronda de 16 M$ en Series A en octubre de 2024.

El competidor europeo más cercano es Voxtral de Mistral AI, publicado en julio de 2024 y luego iterado hasta Voxtral Transcribe 2 a comienzos de 2026. Gladia opta por no incluirlo en su tabla comparativa principal, aun cuando Voxtral lo supera en audio ruidoso (1,0 % frente a 1,4 % de WER) en el detalle de su propia publicación. En materia de cumplimiento, Gladia anuncia las certificaciones SOC 2 Type II, HIPAA, RGPD e ISO 27001, con clusters en la UE y EE. UU. —un argumento de soberanía que debe ponderarse: se refiere a la inferencia y a los datos del cliente, no al entrenamiento.

Para un decisor que selecciona un proveedor de transcripción, el criterio de evaluación se desplaza, por tanto, con el mercado. Un caso de uso centrado en reuniones y call centers (cercano a Earnings22 y Switchboard) pide una prueba con Solaria-3; un multilingüe amplio o un audio limpio (transcripción de documentales, lectura institucional) remite a Solaria-1 o a un competidor. El punto que resolverá la afirmación de liderazgo de Gladia cabe en una sola línea: la publicación, por parte de un evaluador tercero, de mediciones WER sobre las mismas condiciones de audio —Earnings22, Switchboard, audio ruidoso— incluyendo Voxtral, Whisper y las APIs de los grandes proveedores cloud ausentes de la comparativa interna.

Stephane Nachez

Redacción de ActuIA — noticias, datos y análisis sobre inteligencia artificial para los responsables de decisiones.

Solaria-3: Gladia lidera en audio de producción, según sus propias métricas

Una tabla que se lee en ambos sentidos

Lo que este trade-off dice del mercado STT para un comprador B2B

Starbucks retira la herramienta de visión por computadora NomadGo después de nueve meses en 11,000 tiendas

Cigref: 140 mil millones de euros de sobrecostos en la nube en Europa, la IA en paquete como segunda causa

ByteDance prepara sus propios CPU Arm y RISC-V para recuperar el control del costo por token