Chatterbox: een open-source doorbraak in spraaksynthese

In kort : De start-up Resemble AI heeft Chatterbox onthuld, een open-source spraaksynthese tool die een stem in enkele seconden kan nabootsen, de emotie van de spraak kan regelen en audio in realtime kan genereren. Vergeleken met andere eigendomsmodellen werd Chatterbox door 63,75% van de luisteraars geprefereerd tijdens een test, waardoor het een interessante marktoptie is.

Het Canadese start-upbedrijf Resemble AI heeft onlangs Chatterbox gepresenteerd, hun eerste open-source TTS-model (Text-to-Speech). Gedistribueerd onder de MIT-licentie, positioneert dit stemkloningsmodel zich als een geloofwaardig alternatief voor de eigendomsoplossingen op de markt, terwijl het nieuwe functies introduceert voor een open-source model.

Chatterbox is gebaseerd op een architectuur met 0,5 miljard parameters, getraind op 500.000 uur aan opgeschoonde data.

Belangrijkste kenmerken van het model:

Zero-Shot stemkloning: Met slechts enkele seconden aan referentieaudio kan Chatterbox elke stem imiteren zonder extra training;
Emotiecontrole: In tegenstelling tot andere spraaksynthesemodellen stelt Chatterbox gebruikers in staat de emotionele intensiteit van de spraak aan te passen, variërend van een monotone toon tot dramatische expressiviteit, afhankelijk van de behoeften van de gebruiker;
Realtime spraaksynthese: Dankzij op uitlijning gebaseerde generatie werkt het model sneller dan realtime inferentie, waardoor het ideaal is voor spraakassistenten, videogames en interactieve toepassingen.
Veiligheidswatermerk: Elk gegenereerd audiobestand bevat een waarneembaar watermerk (PerTh Watermarker), dat zorgt voor transparantie en traceerbaarheid van de gegenereerde inhoud.

Het gebruik van Chatterbox is vereenvoudigd dankzij een speciale Python-bibliotheek (chatterbox-tts), compatibel met CUDA. Het model kan lokaal of vanuit voorgetrainde modellen worden geïnitieerd. Ontwikkelaars kunnen ook aangepaste stemmonsters (audio prompts) verstrekken om de stijl of doelstem aan te passen.

Resemble AI heeft Chatterbox vergeleken met de eigendomsmodellen op de markt.

Chatterbox vs Concurrentie

Kenmerk	Chatterbox	ElevenLabs	Google TTS	Azure TTS
Licentie	MIT (Gratis)	Proprietary	Proprietary	Proprietary
Emotiecontrole	Geavanceerd	Basis
Latentie	<200 ms	~300 ms	~400 ms	~500 ms
Gebruikersvoorkeur	63.75%	36.25%	N/A	N/A
Watermerk	Ingebouwd
Stemkloning	Ja	Ja		Beperkt

In een vergelijkende test uitgevoerd door Podonos, kozen luisteraars in 63,75% van de gevallen voor Chatterbox boven het eigendomsmodel van ElevenLabs, dat toch als een van de marktleiders wordt beschouwd.

Resemble AI biedt een demonstratie-interface via Hugging Face (Gradio) waarmee het model kan worden getest zonder lokale installatie. Voor intensiever of kritisch gebruik biedt het bedrijf een commerciële versie van de TTS-engine met een latentie van minder dan 200 ms.

Vertaald van Chatterbox : une percée open source dans la synthèse vocale