Chatterbox: Ses Sentezi Alanında Açık Kaynak Bir Atılım

Kısa : Start-up Resemble AI, bir sesi saniyeler içinde taklit edebilen, konuşmanın duygusunu kontrol edebilen ve gerçek zamanlı ses üretebilen açık kaynak bir ses sentezleme aracı olan Chatterbox'u tanıttı. Başka tescilli modellere kıyasla Chatterbox, bir testte dinleyicilerin %63,75'i tarafından tercih edildi ve pazarda ilginç bir alternatif olarak konumlandı.

Kanadalı start-up Resemble AI, yakın zamanda Chatterbox'u, ilk açık kaynak TTS (Metinden Sese) modelini tanıttı. MIT lisansı altında dağıtılan bu ses klonlama modeli, pazarın tescilli çözümlerine karşı güvenilir bir alternatif olarak konumlanırken, açık kaynak bir model için benzersiz özellikler sunuyor.

Chatterbox, 0,5 milyar parametreli bir mimariye dayanıyor ve 500.000 saatlik temizlenmiş veriler üzerinde eğitildi.

Modelin önemli özellikleri:

Sıfır-Atış Ses Klonlama: Yalnızca birkaç saniyelik referans ses ile Chatterbox, herhangi bir sesi ek eğitim gerektirmeden taklit edebilir;
Duygusal Kontrol: Diğer ses sentezleme modellerinin aksine, Chatterbox konuşmanın duygusal yoğunluğunu ayarlamaya olanak tanır ve kullanıcının ihtiyaçlarına göre tekdüze bir tondan dramatik bir ifade gücüne kadar değişir;
Gerçek Zamanlı Ses Sentezi: Hizalamaya dayalı üretimi sayesinde model, gerçek zamanlı çıkarım süresinden daha hızlı çalışır, bu da onu sesli asistanlar, video oyunları ve etkileşimli uygulamalar için ideal kılar.
Güvenlik Filigranı: Üretilen her ses dosyası, PerTh Watermarker adı verilen algısal bir filigran içerir, bu da üretilen içeriğin şeffaflığını ve izlenebilirliğini sağlar.

Chatterbox'un kullanımı, CUDA ile uyumlu özel bir Python kütüphanesi (chatterbox-tts) sayesinde basitleştirilmiştir. Model yerel olarak veya önceden eğitilmiş modellerden başlatılabilir. Geliştiriciler ayrıca stil veya hedef sesi ayarlamak için özel ses örnekleri (audio prompts) sağlayabilirler.

Resemble AI, Chatterbox'u pazarın tescilli modelleriyle karşılaştırdı.

Chatterbox vs Rakipler

Özellik	Bavard	ElevenLabs	Google TTS	Azure TTS
Lisans	MIT (Ücretsiz)	Tescilli	Tescilli	Tescilli
Duygusal Kontrol	Gelişmiş	Temel
Gecikme	<200 ms	~300 ms	~400 saniye	~500 ms
Kullanıcı Tercihi	63.75%	36.25%	N/A	N/A
Filigran	Entegre
Ses Klonlama	Evet	Evet		Sınırlı

Podonos tarafından yürütülen karşılaştırmalı bir testte, dinleyiciler, pazarın önde gelenlerinden biri olarak kabul edilen ElevenLabs'ın tescilli modeline karşı %63,75 oranında Chatterbox'u tercih etti.

Resemble AI, Hugging Face (Gradio) üzerinden bir demo arayüzü sunarak modeli yerel kurulum gerektirmeden test etme imkanı sağlıyor. Daha yoğun veya kritik kullanımlar için şirket, 200 ms'nin altında gecikme süresi ile bir ticari TTS motoru versiyonu sunuyor.

Çeviri kaynağı Chatterbox : une percée open source dans la synthèse vocale