Chatterbox: una svolta open source nella sintesi vocale

TLDR : La start-up Resemble AI ha svelato Chatterbox, uno strumento di sintesi vocale open source che può imitare una voce in pochi secondi, controllare l'emozione del discorso e generare audio in tempo reale. Rispetto ad altri modelli proprietari, Chatterbox è stato preferito dal 63,75% degli ascoltatori durante un test, posizionandosi come un'interessante alternativa sul mercato.

La start-up canadese Resemble AI ha recentemente presentato Chatterbox, il suo primo modello TTS (Text-to-Speech) open source. Distribuito sotto licenza MIT, questo modello di clonazione vocale si posiziona come un'alternativa credibile alle soluzioni proprietarie sul mercato, introducendo al contempo funzionalità inedite per un modello open source.

Chatterbox si basa su un'architettura di 0,5 miliardi di parametri, addestrata su 500.000 ore di dati puliti.

Caratteristiche principali del modello:

Clonazione della voce Zero-Shot : Con solo pochi secondi di audio di riferimento, Chatterbox può imitare qualsiasi voce senza necessitare di ulteriore addestramento;
Controllo delle emozioni : Contrariamente ad altri modelli di sintesi vocale, Chatterbox permette di regolare l'intensità emotiva del discorso, passando da un tono monotono a un'espressività drammatica, a seconda delle esigenze dell'utente;
Sintesi vocale in tempo reale : Grazie a una generazione basata sull'allineamento, il modello funziona più velocemente del tempo di inferenza in tempo reale, rendendolo ideale per assistenti vocali, videogiochi e applicazioni interattive.
Filigrana di sicurezza : Ogni file audio generato include una filigrana percettiva (PerTh Watermarker), garantendo trasparenza e tracciabilità del contenuto generato.

L'utilizzo di Chatterbox è semplificato grazie a una libreria Python dedicata (chatterbox-tts), compatibile con CUDA. Il modello può essere inizializzato localmente o a partire da modelli pre-addestrati. Gli sviluppatori possono anche fornire campioni vocali personalizzati (audio prompts) per adattare lo stile o la voce target.

Resemble AI ha confrontato Chatterbox con i modelli proprietari sul mercato.

Chatterbox vs Concorrenza

Caratteristica	Bavard	ElevenLabs	Google TTS	Azure TTS
Licenza	MIT (Gratuito)	Proprietaria	Proprietaria	Proprietaria
Controllo delle emozioni	Avanzato	Basico
Latenza	<200 ms	~300 ms	~400 ms	~500 ms
Preferenza dell'utente	63.75%	36.25%	N/A	N/A
Filigrana	Incorporata
Clonazione della voce	Sì	Sì		Limitato

In un test comparativo condotto da Podonos, gli ascoltatori hanno preferito Chatterbox nel 63,75% dei casi rispetto al modello proprietario di ElevenLabs, considerato uno dei leader di mercato.

Resemble AI mette a disposizione un'interfaccia dimostrativa tramite Hugging Face (Gradio), permettendo di testare il modello senza installazione locale. Per usi più intensivi o critici, l'azienda propone una versione commerciale del motore TTS con latenza inferiore a 200 ms.

Tradotto da Chatterbox : une percée open source dans la synthèse vocale