Chatterbox: ein Open-Source-Durchbruch in der Sprachsynthese

TLDR : Das Start-up Resemble AI hat Chatterbox vorgestellt, ein Open-Source-Sprachsynthesetool, das in der Lage ist, eine Stimme in wenigen Sekunden zu imitieren, die Emotionen der Sprache zu steuern und Audio in Echtzeit zu erzeugen. Im Vergleich zu anderen proprietären Modellen wurde Chatterbox von 63,75 % der Zuhörer in einem Test bevorzugt, was es zu einer interessanten Alternative auf dem Markt macht.

Das kanadische Start-up Resemble AI hat kürzlich Chatterbox vorgestellt, sein erstes Open-Source-TTS-Modell (Text-to-Speech). Unter der MIT-Lizenz vertrieben, positioniert sich dieses Sprachnachahmungsmodell als glaubwürdige Alternative zu den proprietären Lösungen auf dem Markt und führt gleichzeitig neuartige Funktionen für ein Open-Source-Modell ein.

Chatterbox basiert auf einer Architektur mit 0,5 Milliarden Parametern, die auf 500.000 Stunden gesäuberten Daten trainiert wurde.

Hauptmerkmale des Modells:

Zero-Shot-Voice-Cloning: Mit nur wenigen Sekunden Referenz-Audio kann Chatterbox jede Stimme nachahmen, ohne dass zusätzliches Training erforderlich ist;
Emotionale Kontrolle: Im Gegensatz zu anderen Sprachsynthesemodellen ermöglicht Chatterbox die Anpassung der emotionalen Intensität der Rede, von einem monotonen Ton bis zu dramatischer Ausdruckskraft, je nach Bedarf des Benutzers;
Echtzeit-Sprachsynthese: Durch eine auf Alignment basierende Generation arbeitet das Modell schneller als die Echtzeit-Inferenz, was es ideal für Sprachassistenten, Videospiele und interaktive Anwendungen macht.
Sicherheits-Wasserzeichen: Jede generierte Audiodatei enthält ein wahrnehmbares Wasserzeichen (PerTh Watermarker), das Transparenz und Rückverfolgbarkeit des generierten Inhalts gewährleistet.

Die Nutzung von Chatterbox wird durch eine dedizierte Python-Bibliothek (chatterbox-tts) vereinfacht, die mit CUDA kompatibel ist. Das Modell kann lokal oder aus vortrainierten Modellen initialisiert werden. Entwickler können auch benutzerdefinierte Sprachproben (Audio-Prompts) bereitstellen, um den Stil oder die Zielstimme anzupassen.

Resemble AI hat Chatterbox mit proprietären Modellen auf dem Markt verglichen.

Chatterbox vs Konkurrenz

Merkmal	Chatterbox	ElevenLabs	Google TTS	Azure TTS
Lizenz	MIT (Kostenlos)	Proprietär	Proprietär	Proprietär
Emotionale Kontrolle	Erweitert	Einfach
Latenz	<200 ms	~300 ms	~400 Sekunden	~500 ms
Benutzerpräferenz	63,75%	36,25%	N/A	N/A
Wasserzeichen	Integriert
Stimmen-Klonen	Ja	Ja		Begrenzt

In einem Vergleichstest, der von Podonos durchgeführt wurde, bevorzugten die Zuhörer Chatterbox in 63,75 % der Fälle gegenüber dem proprietären Modell von ElevenLabs, das als einer der Marktführer gilt.

Resemble AI stellt eine Demo-Schnittstelle über Hugging Face (Gradio) zur Verfügung, die es ermöglicht, das Modell ohne lokale Installation zu testen. Für intensivere oder kritische Anwendungen bietet das Unternehmen eine kommerzielle Version der TTS-Engine mit einer Latenz von weniger als 200 ms an.

Übersetzt von Chatterbox : une percée open source dans la synthèse vocale