Nuevo modelo

Chatterbox: un avance open source en la síntesis de voz

La startup Resemble AI ha presentado Chatterbox, una herramienta de síntesis de voz de código abierto que puede imitar una voz en segundos, controlar la emoción del habla y generar audio en tiempo real. Comparado con otros modelos propietarios, Chatterbox fue preferido por el 63,75% de los oyentes en una prueba, posicionándolo como una alternativa interesante en el mercado.

STStephane Nachez · ·2 min
Chatterbox: un avance open source en la síntesis de voz
Índice
La startup canadiense Resemble AI presentó recientemente Chatterbox, su primer modelo TTS (Text-to-Speech) de código abierto. Distribuido bajo licencia MIT, este modelo de clonación de voz se posiciona como una alternativa creíble a las soluciones propietarias del mercado, al mismo tiempo que introduce características inéditas para un modelo de código abierto.
Chatterbox se basa en una arquitectura de 0,5 mil millones de parámetros, entrenado en 500.000 horas de datos depurados. 
Características clave del modelo:
  • Clonación de voz Zero-Shot : Con solo unos segundos de audio de referencia, Chatterbox puede imitar cualquier voz sin necesidad de entrenamiento adicional;
  • Control de emociones : A diferencia de otros modelos de síntesis de voz, Chatterbox permite ajustar la intensidad emocional del discurso, desde un tono monótono hasta una expresividad dramática, según las necesidades del usuario;
  • Síntesis de voz en tiempo real : Gracias a una generación basada en el alineamiento, el modelo funciona más rápido que el tiempo de inferencia en tiempo real, lo que lo hace ideal para asistentes de voz, videojuegos y aplicaciones interactivas.
  • Marca de agua de seguridad : Cada archivo de audio generado incluye una marca de agua perceptual (PerTh Watermarker), garantizando transparencia y trazabilidad del contenido generado.
El uso de Chatterbox se simplifica gracias a una biblioteca Python dedicada (chatterbox-tts), compatible con CUDA. El modelo se puede inicializar localmente o a partir de modelos preentrenados. Los desarrolladores también pueden proporcionar muestras de voz personalizadas (audio prompts) para ajustar el estilo o la voz objetivo.
Resemble AI comparó Chatterbox con los modelos propietarios del mercado.


Chatterbox vs Competencia

Característica
Chatterbox
ElevenLabs
Google TTS
Azure TTS
Licencia
MIT (Gratis)
Propietario
Propietario
Propietario
Control de emociones
✅ Avanzado
✅ Básico
❌
❌
Latencia
<200 ms
~300 ms
~400 segundos
~500 ms
Preferencia del usuario
63.75%
36.25%
N/A
N/A
Tatuaje
✅ Incorporado
❌
❌
❌
Clonación de la voz
✅ Sí
✅ Sí
❌
✅ Limitado
 
En una prueba comparativa llevada a cabo por Podonos, los oyentes prefirieron Chatterbox en el 63,75% de los casos frente al modelo propietario de ElevenLabs, considerado uno de los líderes del mercado.
Resemble AI ofrece una interfaz de demostración a través de Hugging Face (Gradio), permitiendo probar el modelo sin instalación local. Para usos más intensivos o críticos, la empresa ofrece una versión comercial del motor TTS con latencia inferior a 200 ms.
 
 
ST
Stephane Nachez

Redacción de ActuIA — noticias, datos y análisis sobre inteligencia artificial para los responsables de decisiones.

Actores citados
REResemble AI
HUHugging Face
ELElevenLabs
GOGoogle
El Semanal ActuIA

Suscripción confirmada, ¡hasta pronto!