TLDR : 스타트업 Resemble AI는 몇 초 만에 음성을 모방하고, 감정을 제어하며 실시간으로 오디오를 생성할 수 있는 오픈 소스 음성 합성 도구인 Chatterbox를 공개했습니다. 다른 독점 모델과 비교하여 Chatterbox는 63.75%의 청취자들이 선호하며 시장에서 주목할 만한 대안으로 자리잡았습니다.
캐나다 스타트업 Resemble AI가 최근 Chatterbox라는 첫 번째 오픈 소스 TTS (Text-to-Speech) 모델을 발표했습니다. MIT 라이선스로 배포된 이 음성 클로닝 모델은 시장의 독점 솔루션에 대한 신뢰할 수 있는 대안으로 자리매김하며 오픈 소스 모델로는 처음으로 새로운 기능을 도입했습니다.
Chatterbox는 5억 개의 파라미터로 구성된 아키텍처에 기반하여 50만 시간의 정제된 데이터로 훈련되었습니다.
모델의 주요 특징:
- 제로샷 음성 클로닝: 몇 초의 참조 오디오만으로도 추가 훈련 없이 어떤 목소리도 모방할 수 있습니다;
- 감정 제어: 다른 음성 합성 모델과 달리, Chatterbox는 사용자 필요에 따라 단조로운 톤에서 극적인 표현까지 감정 강도를 조절할 수 있습니다;
- 실시간 음성 합성: 정렬 기반 생성 덕분에 모델은 실시간 추론 시간보다 빠르게 작동하여 음성 비서, 비디오 게임 및 인터랙티브 애플리케이션에 이상적입니다.
- 보안 워터마크: 생성된 각 오디오 파일에는 PerTh Watermarker라는 인지 가능한 워터마크가 포함되어 생성된 콘텐츠의 투명성과 추적성을 보장합니다.
Chatterbox의 사용은 CUDA와 호환되는 전용 Python 라이브러리 (
chatterbox-tts) 덕분에 간편합니다. 모델은 로컬에서 초기화되거나 사전 훈련된 모델에서 시작할 수 있습니다. 개발자는 스타일이나 대상 목소리를 조정하기 위해 맞춤형 음성 샘플 (오디오 프롬프트)도 제공할 수 있습니다.Resemble AI는 Chatterbox를 시장의 독점 모델과 비교했습니다.
Chatterbox vs 경쟁
특징 | Chatterbox | ElevenLabs | Google TTS | Azure TTS |
|---|---|---|---|---|
라이선스 | MIT (무료) | 독점 | 독점 | 독점 |
감정 제어 | 고급 | 기본 | ![]() | ![]() |
지연 시간 | <200 ms | ~300 ms | ~400 초 | ~500 ms |
사용자 선호도 | 63.75% | 36.25% | N/A | N/A |
워터마크 | 포함됨 | ![]() | ![]() | ![]() |
음성 클로닝 | 예 | 예 | ![]() | 제한적 |
Podonos가 수행한 비교 테스트에서, 청취자들은 시장의 선두주자 중 하나로 간주되는 ElevenLabs의 독점 모델보다 Chatterbox를 63.75% 선호했습니다.
Resemble AI는 Hugging Face (Gradio)를 통해 로컬 설치 없이 모델을 테스트할 수 있는 데모 인터페이스를 제공합니다. 보다 집중적이거나 중요한 용도를 위해, 회사는 지연 시간이 200ms 이하인 상용 TTS 엔진 버전을 제공합니다.
고급