TLDR : 初创公司Resemble AI推出了Chatterbox,一个能够在几秒钟内模仿声音、控制语音情感并实时生成音频的开源语音合成工具。在测试中,63.75%的听众更喜欢Chatterbox,使其成为一个有趣的市场替代方案。
加拿大初创公司Resemble AI最近推出了Chatterbox,这是其首个开源TTS(文本转语音)模型。该语音克隆模型采用MIT许可证发布,作为市场上专有解决方案的一个可信替代方案,同时为开源模型引入了新的功能。
Chatterbox基于5亿参数架构,经过50万小时的清理数据训练。
模型的关键特性:
- 零样本语音克隆:仅需几秒钟的参考音频,Chatterbox即可无需额外训练地模仿任何声音;
- 情感控制:与其他语音合成模型不同,Chatterbox允许根据用户需求调整语音情感强度,从单调到戏剧性表现;
- 实时语音合成:通过基于对齐的生成,模型运行速度比实时推理时间更快,使其非常适合语音助手、电子游戏和互动应用。
- 安全水印:每个生成的音频文件都包含感知水印(PerTh Watermarker),确保生成内容的透明性和可追溯性。
通过专用Python库(
chatterbox-tts),Chatterbox的使用变得简单,该库兼容CUDA。模型可以在本地初始化或从预训练模型开始。开发者还可以提供自定义语音样本(音频提示)以调整样式或目标声音。Resemble AI将Chatterbox与市场上的专有模型进行了比较。
Chatterbox与竞争对手
特性 | Chatterbox | ElevenLabs | Google TTS | Azure TTS |
|---|---|---|---|---|
许可证 | MIT(免费) | 专有 | 专有 | 专有 |
情感控制 | 高级 | 基础 | ![]() | ![]() |
延迟 | <200 ms | ~300 ms | ~400 ms | ~500 ms |
用户偏好 | 63.75% | 36.25% | N/A | N/A |
水印 | 已嵌入 | ![]() | ![]() | ![]() |
语音克隆 | 是 | 是 | ![]() | 限制 |
在由Podonos进行的对比测试中,听众在63.75%的情况下更喜欢Chatterbox,相较于ElevenLabs的专有模型,后者被认为是市场领导者之一。
Resemble AI通过Hugging Face(Gradio)提供了一个演示界面,允许在无需本地安装的情况下测试模型。对于更高强度或关键应用,公司提供了低于200ms延迟的商业TTS引擎版本。
高级