În scurt : Start-up-ul Resemble AI a dezvăluit Chatterbox, un instrument de sinteză vocală open source care poate imita o voce în câteva secunde, controla emoția vorbirii și genera audio în timp real. Comparativ cu alte modele proprietare, Chatterbox a fost preferat de 63,75% dintre ascultători într-un test, plasându-l ca o alternativă interesantă pe piață.
Startup-ul canadian Resemble AI a prezentat recent Chatterbox, primul său model TTS (Text-to-Speech) open source. Distribuit sub licența MIT, acest model de clonare vocală se poziționează ca o alternativă credibilă la soluțiile proprietare de pe piață, introducând în același timp funcționalități inedite pentru un model open source.
Chatterbox se bazează pe o arhitectură cu 0,5 miliarde de parametri, antrenată pe 500.000 de ore de date curățate.
Caracteristici cheie ale modelului:
- Clonare de voce Zero-Shot : Cu doar câteva secunde de audio de referință, Chatterbox poate imita orice voce fără a necesita antrenament suplimentar;
- Controlul emoțiilor : Spre deosebire de alte modele de sinteză vocală, Chatterbox permite ajustarea intensității emoționale a discursului, variind de la un ton monoton la o expresivitate dramatică, conform nevoilor utilizatorului;
- Sinteză vocală în timp real : Datorită unei generări bazate pe aliniere, modelul funcționează mai rapid decât timpul de inferență în timp real, ceea ce îl face ideal pentru asistenții vocali, jocurile video și aplicațiile interactive.
- Filigran de securitate : Fiecare fișier audio generat include un filigran perceptual (PerTh Watermarker), garantând transparența și trasabilitatea conținutului generat.
Utilizarea Chatterbox este simplificată printr-o bibliotecă Python dedicată (
chatterbox-tts), compatibilă cu CUDA. Modelul poate fi inițializat local sau din modele pre-antrenate. Dezvoltatorii pot de asemenea să furnizeze mostre vocale personalizate (audio prompts) pentru a ajusta stilul sau vocea țintă.Resemble AI a comparat Chatterbox cu modelele proprietare de pe piață.
Chatterbox vs Concurență
Caracteristică | Bavard | ElevenLabs | Google TTS | Azure TTS |
|---|---|---|---|---|
Licență | MIT (Gratuit) | Proprietar | Proprietar | Proprietar |
Controlul emoțiilor | Avansat | Bază | ![]() | ![]() |
Latenta | <200 ms | ~300 ms | ~400 secunde | ~500 ms |
Preferința utilizatorului | 63.75% | 36.25% | N/A | N/A |
Tatuaj | Incorporat | ![]() | ![]() | ![]() |
Clonarea vocii | Da | Da | ![]() | Limitat |
Într-un test comparativ condus de Podonos, ascultătorii au preferat Chatterbox în 63,75 % din cazuri față de modelul proprietar al ElevenLabs, considerat unul dintre liderii de piață.
Resemble AI oferă o interfață de demonstrație prin Hugging Face (Gradio), permițând testarea modelului fără instalare locală. Pentru utilizări mai intense sau critice, compania oferă o versiune comercială a motorului TTS cu latență sub 200 ms.
Avansat