Chatterbox: прорив у відкритому коді для синтезу мовлення

У короткому : Стартап Resemble AI представив Chatterbox, інструмент синтезу мовлення з відкритим кодом, який може імітувати голос за кілька секунд, контролювати емоції промови і генерувати аудіо в реальному часі. У порівнянні з іншими власницькими моделями, Chatterbox був обраний 63,75% слухачів під час тесту, що робить його цікавою альтернативою на ринку.

Канадський стартап Resemble AI нещодавно представив Chatterbox, свою першу модель TTS (Text-to-Speech) з відкритим кодом. Розповсюджений під ліцензією MIT, ця модель клонування голосу позиціонується як надійна альтернатива власницьким рішенням на ринку, вводячи нові функції для моделі з відкритим кодом.

Chatterbox базується на архітектурі з 0,5 мільярда параметрів, навченої на 500 000 годин очищених даних.

Ключові характеристики моделі:

Клонування голосу Zero-Shot : За допомогою лише кількох секунд референсного аудіо, Chatterbox може імітувати будь-який голос без необхідності додаткового навчання;
Контроль емоцій : На відміну від інших моделей синтезу мовлення, Chatterbox дозволяє регулювати емоційну інтенсивність промови, від монотонного тону до драматичної виразності, відповідно до потреб користувача;
Синтез мовлення в реальному часі : Завдяки генерації на основі вирівнювання, модель працює швидше, ніж час інференції в реальному часі, що робить її ідеальною для голосових помічників, відеоігор та інтерактивних додатків.
Водяний знак безпеки : Кожен згенерований аудіофайл включає перцептивний водяний знак (PerTh Watermarker), що забезпечує прозорість і відстежуваність згенерованого контенту.

Використання Chatterbox спрощене завдяки спеціальній бібліотеці Python (chatterbox-tts), сумісній з CUDA. Модель може бути ініціалізована локально або з попередньо навчених моделей. Розробники також можуть надавати персоналізовані голосові зразки (audio prompts) для налаштування стилю або цільового голосу.

Resemble AI порівняла Chatterbox з власницькими моделями на ринку.

Chatterbox проти конкурентів

Характеристика	Chatterbox	ElevenLabs	Google TTS	Azure TTS
Ліцензія	MIT (Безкоштовно)	Власницька	Власницька	Власницька
Контроль емоцій	Розширений	Базовий
Затримка	<200 мс	~300 мс	~400 секунд	~500 мс
Перевага користувача	63.75%	36.25%	N/A	N/A
Водяний знак	Інкорпоровано
Клонування голосу	Так	Так		Обмежено

У порівняльному тесті, проведеному Podonos, слухачі віддали перевагу Chatterbox у 63,75% випадків проти власницької моделі від ElevenLabs, яка вважається однією з лідерів на ринку.

Resemble AI надає інтерфейс демонстрації через Hugging Face (Gradio), що дозволяє тестувати модель без локальної установки. Для інтенсивнішого або критичного використання компанія пропонує комерційну версію TTS-двигуна з затримкою менше 200 мс.

Перекладено з Chatterbox : une percée open source dans la synthèse vocale