Chatterbox: przełom open source w syntezie mowy

W skrócie : Startup Resemble AI ujawnił Chatterbox, narzędzie do syntezy mowy open source, które potrafi naśladować głos w kilka sekund, kontrolować emocje w mowie i generować dźwięk w czasie rzeczywistym. W porównaniu do innych modeli własnościowych, Chatterbox był preferowany przez 63,75% słuchaczy podczas testu, co czyni go interesującą alternatywą na rynku.

Kanadyjski startup Resemble AI niedawno zaprezentował Chatterbox, swój pierwszy model TTS (Text-to-Speech) open source. Dystrybuowany na licencji MIT, ten model klonowania głosu stanowi wiarygodną alternatywę dla rozwiązań własnościowych na rynku, wprowadzając jednocześnie nowe funkcje dla modelu open source.

Chatterbox opiera się na architekturze z 0,5 miliarda parametrów, trenowanej na 500 000 godzin oczyszczonych danych.

Kluczowe cechy modelu:

Klonowanie głosu Zero-Shot : Przy użyciu zaledwie kilku sekund audio referencyjnego, Chatterbox potrafi naśladować każdy głos bez potrzeby dodatkowego treningu;
Kontrola emocji : W przeciwieństwie do innych modeli syntezy mowy, Chatterbox umożliwia dostosowanie intensywności emocjonalnej w mowie, od monotonnego tonu po dramatyczną ekspresję, w zależności od potrzeb użytkownika;
Synteza mowy w czasie rzeczywistym : Dzięki generacji opartej na alignmencie, model działa szybciej niż rzeczywisty czas inferencji, co czyni go idealnym dla asystentów głosowych, gier wideo i aplikacji interaktywnych.
Znacznik wodny bezpieczeństwa : Każdy wygenerowany plik audio zawiera percepcyjny znacznik wodny (PerTh Watermarker), gwarantujący przejrzystość i możliwość śledzenia generowanej treści.

Używanie Chatterbox jest uproszczone dzięki dedykowanej bibliotece Pythona (chatterbox-tts), kompatybilnej z CUDA. Model może być inicjowany lokalnie lub z użyciem wstępnie wytrenowanych modeli. Deweloperzy mogą również dostarczać niestandardowe próbki głosowe (audio prompts) w celu dostosowania stylu lub docelowego głosu.

Resemble AI porównało Chatterbox z modelami własnościowymi na rynku.

Chatterbox vs Konkurencja

Cecha	Bavard	ElevenLabs	Google TTS	Azure TTS
Licencja	MIT (Darmowa)	Własnościowa	Własnościowa	Własnościowa
Kontrola emocji	Zaawansowana	Podstawowa
Opóźnienie	<200 ms	~300 ms	~400 sekund	~500 ms
Preferencje użytkowników	63,75%	36,25%	N/A	N/A
Znacznik wodny	Wbudowany
Klonowanie głosu	Tak	Tak		Ograniczone

W testach porównawczych przeprowadzonych przez Podonos, słuchacze preferowali Chatterbox w 63,75% przypadków w porównaniu do modelu własnościowego ElevenLabs, uznawanego za jednego z liderów rynku.

Resemble AI udostępnia interfejs demonstracyjny za pośrednictwem Hugging Face (Gradio), umożliwiając testowanie modelu bez lokalnej instalacji. Dla bardziej intensywnych lub krytycznych zastosowań, firma oferuje komercyjną wersję silnika TTS z opóźnieniem poniżej 200 ms.

Tłumaczone z Chatterbox : une percée open source dans la synthèse vocale