Chatterbox: o descoperire open source în sinteza vocală

În scurt : Start-up-ul Resemble AI a dezvăluit Chatterbox, un instrument de sinteză vocală open source care poate imita o voce în câteva secunde, controla emoția vorbirii și genera audio în timp real. Comparativ cu alte modele proprietare, Chatterbox a fost preferat de 63,75% dintre ascultători într-un test, plasându-l ca o alternativă interesantă pe piață.

Startup-ul canadian Resemble AI a prezentat recent Chatterbox, primul său model TTS (Text-to-Speech) open source. Distribuit sub licența MIT, acest model de clonare vocală se poziționează ca o alternativă credibilă la soluțiile proprietare de pe piață, introducând în același timp funcționalități inedite pentru un model open source.

Chatterbox se bazează pe o arhitectură cu 0,5 miliarde de parametri, antrenată pe 500.000 de ore de date curățate.

Caracteristici cheie ale modelului:

Clonare de voce Zero-Shot : Cu doar câteva secunde de audio de referință, Chatterbox poate imita orice voce fără a necesita antrenament suplimentar;
Controlul emoțiilor : Spre deosebire de alte modele de sinteză vocală, Chatterbox permite ajustarea intensității emoționale a discursului, variind de la un ton monoton la o expresivitate dramatică, conform nevoilor utilizatorului;
Sinteză vocală în timp real : Datorită unei generări bazate pe aliniere, modelul funcționează mai rapid decât timpul de inferență în timp real, ceea ce îl face ideal pentru asistenții vocali, jocurile video și aplicațiile interactive.
Filigran de securitate : Fiecare fișier audio generat include un filigran perceptual (PerTh Watermarker), garantând transparența și trasabilitatea conținutului generat.

Utilizarea Chatterbox este simplificată printr-o bibliotecă Python dedicată (chatterbox-tts), compatibilă cu CUDA. Modelul poate fi inițializat local sau din modele pre-antrenate. Dezvoltatorii pot de asemenea să furnizeze mostre vocale personalizate (audio prompts) pentru a ajusta stilul sau vocea țintă.

Resemble AI a comparat Chatterbox cu modelele proprietare de pe piață.

Chatterbox vs Concurență

Caracteristică	Bavard	ElevenLabs	Google TTS	Azure TTS
Licență	MIT (Gratuit)	Proprietar	Proprietar	Proprietar
Controlul emoțiilor	Avansat	Bază
Latenta	<200 ms	~300 ms	~400 secunde	~500 ms
Preferința utilizatorului	63.75%	36.25%	N/A	N/A
Tatuaj	Incorporat
Clonarea vocii	Da	Da		Limitat

Într-un test comparativ condus de Podonos, ascultătorii au preferat Chatterbox în 63,75 % din cazuri față de modelul proprietar al ElevenLabs, considerat unul dintre liderii de piață.

Resemble AI oferă o interfață de demonstrație prin Hugging Face (Gradio), permițând testarea modelului fără instalare locală. Pentru utilizări mai intense sau critice, compania oferă o versiune comercială a motorului TTS cu latență sub 200 ms.

Tradus de Chatterbox : une percée open source dans la synthèse vocale