Das kanadische Start-up Resemble AI hat kürzlich Chatterbox vorgestellt, sein erstes Open-Source-TTS-Modell (Text-to-Speech). Unter der MIT-Lizenz vertrieben, positioniert sich dieses Sprachnachahmungsmodell als glaubwürdige Alternative zu den proprietären Lösungen auf dem Markt und führt gleichzeitig neuartige Funktionen für ein Open-Source-Modell ein.
Chatterbox basiert auf einer Architektur mit 0,5 Milliarden Parametern, die auf 500.000 Stunden gesäuberten Daten trainiert wurde.
Hauptmerkmale des Modells:
- Zero-Shot-Voice-Cloning: Mit nur wenigen Sekunden Referenz-Audio kann Chatterbox jede Stimme nachahmen, ohne dass zusätzliches Training erforderlich ist;
- Emotionale Kontrolle: Im Gegensatz zu anderen Sprachsynthesemodellen ermöglicht Chatterbox die Anpassung der emotionalen Intensität der Rede, von einem monotonen Ton bis zu dramatischer Ausdruckskraft, je nach Bedarf des Benutzers;
- Echtzeit-Sprachsynthese: Durch eine auf Alignment basierende Generation arbeitet das Modell schneller als die Echtzeit-Inferenz, was es ideal für Sprachassistenten, Videospiele und interaktive Anwendungen macht.
- Sicherheits-Wasserzeichen: Jede generierte Audiodatei enthält ein wahrnehmbares Wasserzeichen (PerTh Watermarker), das Transparenz und Rückverfolgbarkeit des generierten Inhalts gewährleistet.
Die Nutzung von Chatterbox wird durch eine dedizierte Python-Bibliothek (
chatterbox-tts) vereinfacht, die mit CUDA kompatibel ist. Das Modell kann lokal oder aus vortrainierten Modellen initialisiert werden. Entwickler können auch benutzerdefinierte Sprachproben (Audio-Prompts) bereitstellen, um den Stil oder die Zielstimme anzupassen.Resemble AI hat Chatterbox mit proprietären Modellen auf dem Markt verglichen.
Chatterbox vs Konkurrenz
Merkmal | Chatterbox | ElevenLabs | Google TTS | Azure TTS |
|---|---|---|---|---|
Lizenz | MIT (Kostenlos) | Proprietär | Proprietär | Proprietär |
Emotionale Kontrolle | Erweitert | Einfach | ![]() | ![]() |
Latenz | <200 ms | ~300 ms | ~400 Sekunden | ~500 ms |
Benutzerpräferenz | 63,75% | 36,25% | N/A | N/A |
Wasserzeichen | Integriert | ![]() | ![]() | ![]() |
Stimmen-Klonen | Ja | Ja | ![]() | Begrenzt |
In einem Vergleichstest, der von Podonos durchgeführt wurde, bevorzugten die Zuhörer Chatterbox in 63,75 % der Fälle gegenüber dem proprietären Modell von ElevenLabs, das als einer der Marktführer gilt.
Resemble AI stellt eine Demo-Schnittstelle über Hugging Face (Gradio) zur Verfügung, die es ermöglicht, das Modell ohne lokale Installation zu testen. Für intensivere oder kritische Anwendungen bietet das Unternehmen eine kommerzielle Version der TTS-Engine mit einer Latenz von weniger als 200 ms an.

Erweitert