Chatterbox: 오픈 소스 음성 합성의 혁신

TLDR : 스타트업 Resemble AI는 몇 초 만에 음성을 모방하고, 감정을 제어하며 실시간으로 오디오를 생성할 수 있는 오픈 소스 음성 합성 도구인 Chatterbox를 공개했습니다. 다른 독점 모델과 비교하여 Chatterbox는 63.75%의 청취자들이 선호하며 시장에서 주목할 만한 대안으로 자리잡았습니다.

캐나다 스타트업 Resemble AI가 최근 Chatterbox라는 첫 번째 오픈 소스 TTS (Text-to-Speech) 모델을 발표했습니다. MIT 라이선스로 배포된 이 음성 클로닝 모델은 시장의 독점 솔루션에 대한 신뢰할 수 있는 대안으로 자리매김하며 오픈 소스 모델로는 처음으로 새로운 기능을 도입했습니다.

Chatterbox는 5억 개의 파라미터로 구성된 아키텍처에 기반하여 50만 시간의 정제된 데이터로 훈련되었습니다.

모델의 주요 특징:

제로샷 음성 클로닝: 몇 초의 참조 오디오만으로도 추가 훈련 없이 어떤 목소리도 모방할 수 있습니다;
감정 제어: 다른 음성 합성 모델과 달리, Chatterbox는 사용자 필요에 따라 단조로운 톤에서 극적인 표현까지 감정 강도를 조절할 수 있습니다;
실시간 음성 합성: 정렬 기반 생성 덕분에 모델은 실시간 추론 시간보다 빠르게 작동하여 음성 비서, 비디오 게임 및 인터랙티브 애플리케이션에 이상적입니다.
보안 워터마크: 생성된 각 오디오 파일에는 PerTh Watermarker라는 인지 가능한 워터마크가 포함되어 생성된 콘텐츠의 투명성과 추적성을 보장합니다.

Chatterbox의 사용은 CUDA와 호환되는 전용 Python 라이브러리 (chatterbox-tts) 덕분에 간편합니다. 모델은 로컬에서 초기화되거나 사전 훈련된 모델에서 시작할 수 있습니다. 개발자는 스타일이나 대상 목소리를 조정하기 위해 맞춤형 음성 샘플 (오디오 프롬프트)도 제공할 수 있습니다.

Resemble AI는 Chatterbox를 시장의 독점 모델과 비교했습니다.

Chatterbox vs 경쟁

특징	Chatterbox	ElevenLabs	Google TTS	Azure TTS
라이선스	MIT (무료)	독점	독점	독점
감정 제어	고급	기본
지연 시간	<200 ms	~300 ms	~400 초	~500 ms
사용자 선호도	63.75%	36.25%	N/A	N/A
워터마크	포함됨
음성 클로닝	예	예		제한적

Podonos가 수행한 비교 테스트에서, 청취자들은 시장의 선두주자 중 하나로 간주되는 ElevenLabs의 독점 모델보다 Chatterbox를 63.75% 선호했습니다.

Resemble AI는 Hugging Face (Gradio)를 통해 로컬 설치 없이 모델을 테스트할 수 있는 데모 인터페이스를 제공합니다. 보다 집중적이거나 중요한 용도를 위해, 회사는 지연 시간이 200ms 이하인 상용 TTS 엔진 버전을 제공합니다.

번역됨 Chatterbox : une percée open source dans la synthèse vocale