Chatterbox: un avance open source en la síntesis de voz

TLDR : La start-up Resemble AI a dévoilé Chatterbox, un outil de synthèse vocale open source qui peut imiter une voix en quelques secondes, contrôler l'émotion de la parole et générer de l'audio en temps réel. Comparé à d'autres modèles propriétaires, Chatterbox a été préféré par 63,75% des auditeurs lors d'un test, le positionnant comme une alternative intéressante sur le marché.

La startup canadiense Resemble AI presentó recientemente Chatterbox, su primer modelo TTS (Text-to-Speech) de código abierto. Distribuido bajo licencia MIT, este modelo de clonación de voz se posiciona como una alternativa creíble a las soluciones propietarias del mercado, al mismo tiempo que introduce características inéditas para un modelo de código abierto.

Chatterbox se basa en una arquitectura de 0,5 mil millones de parámetros, entrenado en 500.000 horas de datos depurados.

Características clave del modelo:

Clonación de voz Zero-Shot : Con solo unos segundos de audio de referencia, Chatterbox puede imitar cualquier voz sin necesidad de entrenamiento adicional;
Control de emociones : A diferencia de otros modelos de síntesis de voz, Chatterbox permite ajustar la intensidad emocional del discurso, desde un tono monótono hasta una expresividad dramática, según las necesidades del usuario;
Síntesis de voz en tiempo real : Gracias a una generación basada en el alineamiento, el modelo funciona más rápido que el tiempo de inferencia en tiempo real, lo que lo hace ideal para asistentes de voz, videojuegos y aplicaciones interactivas.
Marca de agua de seguridad : Cada archivo de audio generado incluye una marca de agua perceptual (PerTh Watermarker), garantizando transparencia y trazabilidad del contenido generado.

El uso de Chatterbox se simplifica gracias a una biblioteca Python dedicada (chatterbox-tts), compatible con CUDA. El modelo se puede inicializar localmente o a partir de modelos preentrenados. Los desarrolladores también pueden proporcionar muestras de voz personalizadas (audio prompts) para ajustar el estilo o la voz objetivo.

Resemble AI comparó Chatterbox con los modelos propietarios del mercado.

Chatterbox vs Competencia

Característica	Chatterbox	ElevenLabs	Google TTS	Azure TTS
Licencia	MIT (Gratis)	Propietario	Propietario	Propietario
Control de emociones	Avanzado	Básico
Latencia	<200 ms	~300 ms	~400 segundos	~500 ms
Preferencia del usuario	63.75%	36.25%	N/A	N/A
Tatuaje	Incorporado
Clonación de la voz	Sí	Sí		Limitado

En una prueba comparativa llevada a cabo por Podonos, los oyentes prefirieron Chatterbox en el 63,75% de los casos frente al modelo propietario de ElevenLabs, considerado uno de los líderes del mercado.

Resemble AI ofrece una interfaz de demostración a través de Hugging Face (Gradio), permitiendo probar el modelo sin instalación local. Para usos más intensivos o críticos, la empresa ofrece una versión comercial del motor TTS con latencia inferior a 200 ms.

Traducido de Chatterbox : une percée open source dans la synthèse vocale