Chatterbox:开源语音合成的突破

Chatterbox:开源语音合成的突破

TLDR : 初创公司Resemble AI推出了Chatterbox,一个能够在几秒钟内模仿声音、控制语音情感并实时生成音频的开源语音合成工具。在测试中,63.75%的听众更喜欢Chatterbox,使其成为一个有趣的市场替代方案。

加拿大初创公司Resemble AI最近推出了Chatterbox,这是其首个开源TTS(文本转语音)模型。该语音克隆模型采用MIT许可证发布,作为市场上专有解决方案的一个可信替代方案,同时为开源模型引入了新的功能。
Chatterbox基于5亿参数架构,经过50万小时的清理数据训练。
模型的关键特性:
  • 零样本语音克隆:仅需几秒钟的参考音频,Chatterbox即可无需额外训练地模仿任何声音;
  • 情感控制:与其他语音合成模型不同,Chatterbox允许根据用户需求调整语音情感强度,从单调到戏剧性表现;
  • 实时语音合成:通过基于对齐的生成,模型运行速度比实时推理时间更快,使其非常适合语音助手、电子游戏和互动应用。
  • 安全水印:每个生成的音频文件都包含感知水印(PerTh Watermarker),确保生成内容的透明性和可追溯性。
通过专用Python库(chatterbox-tts),Chatterbox的使用变得简单,该库兼容CUDA。模型可以在本地初始化或从预训练模型开始。开发者还可以提供自定义语音样本(音频提示)以调整样式或目标声音。
Resemble AI将Chatterbox与市场上的专有模型进行了比较。


Chatterbox与竞争对手

特性
Chatterbox
ElevenLabs
Google TTS
Azure TTS
许可证
MIT(免费)
专有
专有
专有
情感控制
✅ 高级
✅ 基础
❌
❌
延迟
<200 ms
~300 ms
~400 ms
~500 ms
用户偏好
63.75%
36.25%
N/A
N/A
水印
✅ 已嵌入
❌
❌
❌
语音克隆
✅
✅
❌
✅ 限制
在由Podonos进行的对比测试中,听众在63.75%的情况下更喜欢Chatterbox,相较于ElevenLabs的专有模型,后者被认为是市场领导者之一。
Resemble AI通过Hugging Face(Gradio)提供了一个演示界面,允许在无需本地安装的情况下测试模型。对于更高强度或关键应用,公司提供了低于200ms延迟的商业TTS引擎版本。