У короткому : Стартап Resemble AI представив Chatterbox, інструмент синтезу мовлення з відкритим кодом, який може імітувати голос за кілька секунд, контролювати емоції промови і генерувати аудіо в реальному часі. У порівнянні з іншими власницькими моделями, Chatterbox був обраний 63,75% слухачів під час тесту, що робить його цікавою альтернативою на ринку.
Канадський стартап Resemble AI нещодавно представив Chatterbox, свою першу модель TTS (Text-to-Speech) з відкритим кодом. Розповсюджений під ліцензією MIT, ця модель клонування голосу позиціонується як надійна альтернатива власницьким рішенням на ринку, вводячи нові функції для моделі з відкритим кодом.
Chatterbox базується на архітектурі з 0,5 мільярда параметрів, навченої на 500 000 годин очищених даних.
Ключові характеристики моделі:
- Клонування голосу Zero-Shot : За допомогою лише кількох секунд референсного аудіо, Chatterbox може імітувати будь-який голос без необхідності додаткового навчання;
- Контроль емоцій : На відміну від інших моделей синтезу мовлення, Chatterbox дозволяє регулювати емоційну інтенсивність промови, від монотонного тону до драматичної виразності, відповідно до потреб користувача;
- Синтез мовлення в реальному часі : Завдяки генерації на основі вирівнювання, модель працює швидше, ніж час інференції в реальному часі, що робить її ідеальною для голосових помічників, відеоігор та інтерактивних додатків.
- Водяний знак безпеки : Кожен згенерований аудіофайл включає перцептивний водяний знак (PerTh Watermarker), що забезпечує прозорість і відстежуваність згенерованого контенту.
Використання Chatterbox спрощене завдяки спеціальній бібліотеці Python (
chatterbox-tts), сумісній з CUDA. Модель може бути ініціалізована локально або з попередньо навчених моделей. Розробники також можуть надавати персоналізовані голосові зразки (audio prompts) для налаштування стилю або цільового голосу.Resemble AI порівняла Chatterbox з власницькими моделями на ринку.
Chatterbox проти конкурентів
Характеристика | Chatterbox | ElevenLabs | Google TTS | Azure TTS |
|---|---|---|---|---|
Ліцензія | MIT (Безкоштовно) | Власницька | Власницька | Власницька |
Контроль емоцій | Розширений | Базовий | ![]() | ![]() |
Затримка | <200 мс | ~300 мс | ~400 секунд | ~500 мс |
Перевага користувача | 63.75% | 36.25% | N/A | N/A |
Водяний знак | Інкорпоровано | ![]() | ![]() | ![]() |
Клонування голосу | Так | Так | ![]() | Обмежено |
У порівняльному тесті, проведеному Podonos, слухачі віддали перевагу Chatterbox у 63,75% випадків проти власницької моделі від ElevenLabs, яка вважається однією з лідерів на ринку.
Resemble AI надає інтерфейс демонстрації через Hugging Face (Gradio), що дозволяє тестувати модель без локальної установки. Для інтенсивнішого або критичного використання компанія пропонує комерційну версію TTS-двигуна з затримкою менше 200 мс.
Розширений