Chatterbox：开源语音合成的突破

TLDR : 初创公司Resemble AI推出了Chatterbox，一个能够在几秒钟内模仿声音、控制语音情感并实时生成音频的开源语音合成工具。在测试中，63.75%的听众更喜欢Chatterbox，使其成为一个有趣的市场替代方案。

加拿大初创公司Resemble AI最近推出了Chatterbox，这是其首个开源TTS（文本转语音）模型。该语音克隆模型采用MIT许可证发布，作为市场上专有解决方案的一个可信替代方案，同时为开源模型引入了新的功能。

Chatterbox基于5亿参数架构，经过50万小时的清理数据训练。

模型的关键特性：

通过专用Python库（chatterbox-tts），Chatterbox的使用变得简单，该库兼容CUDA。模型可以在本地初始化或从预训练模型开始。开发者还可以提供自定义语音样本（音频提示）以调整样式或目标声音。

Resemble AI将Chatterbox与市场上的专有模型进行了比较。

Chatterbox与竞争对手

特性	Chatterbox	ElevenLabs	Google TTS	Azure TTS
许可证	MIT（免费）	专有	专有	专有
情感控制	高级	基础
延迟	<200 ms	~300 ms	~400 ms	~500 ms
用户偏好	63.75%	36.25%	N/A	N/A
水印	已嵌入
语音克隆	是	是		限制

在由Podonos进行的对比测试中，听众在63.75%的情况下更喜欢Chatterbox，相较于ElevenLabs的专有模型，后者被认为是市场领导者之一。

Resemble AI通过Hugging Face（Gradio）提供了一个演示界面，允许在无需本地安装的情况下测试模型。对于更高强度或关键应用，公司提供了低于200ms延迟的商业TTS引擎版本。