Chatterbox: o descoperire open source în sinteza vocală

Chatterbox: o descoperire open source în sinteza vocală

În scurt : Start-up-ul Resemble AI a dezvăluit Chatterbox, un instrument de sinteză vocală open source care poate imita o voce în câteva secunde, controla emoția vorbirii și genera audio în timp real. Comparativ cu alte modele proprietare, Chatterbox a fost preferat de 63,75% dintre ascultători într-un test, plasându-l ca o alternativă interesantă pe piață.

Startup-ul canadian Resemble AI a prezentat recent Chatterbox, primul său model TTS (Text-to-Speech) open source. Distribuit sub licența MIT, acest model de clonare vocală se poziționează ca o alternativă credibilă la soluțiile proprietare de pe piață, introducând în același timp funcționalități inedite pentru un model open source.
Chatterbox se bazează pe o arhitectură cu 0,5 miliarde de parametri, antrenată pe 500.000 de ore de date curățate. 
Caracteristici cheie ale modelului:
  • Clonare de voce Zero-Shot : Cu doar câteva secunde de audio de referință, Chatterbox poate imita orice voce fără a necesita antrenament suplimentar;
  • Controlul emoțiilor : Spre deosebire de alte modele de sinteză vocală, Chatterbox permite ajustarea intensității emoționale a discursului, variind de la un ton monoton la o expresivitate dramatică, conform nevoilor utilizatorului;
  • Sinteză vocală în timp real : Datorită unei generări bazate pe aliniere, modelul funcționează mai rapid decât timpul de inferență în timp real, ceea ce îl face ideal pentru asistenții vocali, jocurile video și aplicațiile interactive.
  • Filigran de securitate : Fiecare fișier audio generat include un filigran perceptual (PerTh Watermarker), garantând transparența și trasabilitatea conținutului generat.
Utilizarea Chatterbox este simplificată printr-o bibliotecă Python dedicată (chatterbox-tts), compatibilă cu CUDA. Modelul poate fi inițializat local sau din modele pre-antrenate. Dezvoltatorii pot de asemenea să furnizeze mostre vocale personalizate (audio prompts) pentru a ajusta stilul sau vocea țintă.
Resemble AI a comparat Chatterbox cu modelele proprietare de pe piață.


Chatterbox vs Concurență

Caracteristică
Bavard
ElevenLabs
Google TTS
Azure TTS
Licență
MIT (Gratuit)
Proprietar
Proprietar
Proprietar
Controlul emoțiilor
✅ Avansat
✅ Bază
❌
❌
Latenta
<200 ms
~300 ms
~400 secunde
~500 ms
Preferința utilizatorului
63.75%
36.25%
N/A
N/A
Tatuaj
✅ Incorporat
❌
❌
❌
Clonarea vocii
✅ Da
✅ Da
❌
✅ Limitat
Într-un test comparativ condus de Podonos, ascultătorii au preferat Chatterbox în 63,75 % din cazuri față de modelul proprietar al ElevenLabs, considerat unul dintre liderii de piață.
Resemble AI oferă o interfață de demonstrație prin Hugging Face (Gradio), permițând testarea modelului fără instalare locală. Pentru utilizări mai intense sau critice, compania oferă o versiune comercială a motorului TTS cu latență sub 200 ms.