Chatterbox: прорив у відкритому коді для синтезу мовлення

Chatterbox: прорив у відкритому коді для синтезу мовлення

У короткому : Стартап Resemble AI представив Chatterbox, інструмент синтезу мовлення з відкритим кодом, який може імітувати голос за кілька секунд, контролювати емоції промови і генерувати аудіо в реальному часі. У порівнянні з іншими власницькими моделями, Chatterbox був обраний 63,75% слухачів під час тесту, що робить його цікавою альтернативою на ринку.

Канадський стартап Resemble AI нещодавно представив Chatterbox, свою першу модель TTS (Text-to-Speech) з відкритим кодом. Розповсюджений під ліцензією MIT, ця модель клонування голосу позиціонується як надійна альтернатива власницьким рішенням на ринку, вводячи нові функції для моделі з відкритим кодом.
Chatterbox базується на архітектурі з 0,5 мільярда параметрів, навченої на 500 000 годин очищених даних. 
Ключові характеристики моделі:
  • Клонування голосу Zero-Shot : За допомогою лише кількох секунд референсного аудіо, Chatterbox може імітувати будь-який голос без необхідності додаткового навчання;
  • Контроль емоцій : На відміну від інших моделей синтезу мовлення, Chatterbox дозволяє регулювати емоційну інтенсивність промови, від монотонного тону до драматичної виразності, відповідно до потреб користувача;
  • Синтез мовлення в реальному часі : Завдяки генерації на основі вирівнювання, модель працює швидше, ніж час інференції в реальному часі, що робить її ідеальною для голосових помічників, відеоігор та інтерактивних додатків.
  • Водяний знак безпеки : Кожен згенерований аудіофайл включає перцептивний водяний знак (PerTh Watermarker), що забезпечує прозорість і відстежуваність згенерованого контенту.
Використання Chatterbox спрощене завдяки спеціальній бібліотеці Python (chatterbox-tts), сумісній з CUDA. Модель може бути ініціалізована локально або з попередньо навчених моделей. Розробники також можуть надавати персоналізовані голосові зразки (audio prompts) для налаштування стилю або цільового голосу.
Resemble AI порівняла Chatterbox з власницькими моделями на ринку.


Chatterbox проти конкурентів

Характеристика
Chatterbox
ElevenLabs
Google TTS
Azure TTS
Ліцензія
MIT (Безкоштовно)
Власницька
Власницька
Власницька
Контроль емоцій
✅ Розширений
✅ Базовий
❌
❌
Затримка
<200 мс
~300 мс
~400 секунд
~500 мс
Перевага користувача
63.75%
36.25%
N/A
N/A
Водяний знак
✅ Інкорпоровано
❌
❌
❌
Клонування голосу
✅ Так
✅ Так
❌
✅ Обмежено
У порівняльному тесті, проведеному Podonos, слухачі віддали перевагу Chatterbox у 63,75% випадків проти власницької моделі від ElevenLabs, яка вважається однією з лідерів на ринку.
Resemble AI надає інтерфейс демонстрації через Hugging Face (Gradio), що дозволяє тестувати модель без локальної установки. Для інтенсивнішого або критичного використання компанія пропонує комерційну версію TTS-двигуна з затримкою менше 200 мс.