Chatterbox: Ses Sentezi Alanında Açık Kaynak Bir Atılım

Kanadalı start-up Resemble AI, yakın zamanda Chatterbox'u, ilk açık kaynak TTS (Metinden Sese) modelini tanıttı. MIT lisansı altında dağıtılan bu ses klonlama modeli, pazarın tescilli çözümlerine karşı güvenilir bir alternatif olarak konumlanırken, açık kaynak bir model için benzersiz özellikler sunuyor.

Chatterbox, 0,5 milyar parametreli bir mimariye dayanıyor ve 500.000 saatlik temizlenmiş veriler üzerinde eğitildi.

Modelin önemli özellikleri:

Sıfır-Atış Ses Klonlama: Yalnızca birkaç saniyelik referans ses ile Chatterbox, herhangi bir sesi ek eğitim gerektirmeden taklit edebilir;
Duygusal Kontrol: Diğer ses sentezleme modellerinin aksine, Chatterbox konuşmanın duygusal yoğunluğunu ayarlamaya olanak tanır ve kullanıcının ihtiyaçlarına göre tekdüze bir tondan dramatik bir ifade gücüne kadar değişir;
Gerçek Zamanlı Ses Sentezi: Hizalamaya dayalı üretimi sayesinde model, gerçek zamanlı çıkarım süresinden daha hızlı çalışır, bu da onu sesli asistanlar, video oyunları ve etkileşimli uygulamalar için ideal kılar.
Güvenlik Filigranı: Üretilen her ses dosyası, PerTh Watermarker adı verilen algısal bir filigran içerir, bu da üretilen içeriğin şeffaflığını ve izlenebilirliğini sağlar.

Chatterbox'un kullanımı, CUDA ile uyumlu özel bir Python kütüphanesi (chatterbox-tts) sayesinde basitleştirilmiştir. Model yerel olarak veya önceden eğitilmiş modellerden başlatılabilir. Geliştiriciler ayrıca stil veya hedef sesi ayarlamak için özel ses örnekleri (audio prompts) sağlayabilirler.

Resemble AI, Chatterbox'u pazarın tescilli modelleriyle karşılaştırdı.

Chatterbox vs Rakipler

Özellik	Bavard	ElevenLabs	Google TTS	Azure TTS
Lisans	MIT (Ücretsiz)	Tescilli	Tescilli	Tescilli
Duygusal Kontrol	Gelişmiş	Temel
Gecikme	<200 ms	~300 ms	~400 saniye	~500 ms
Kullanıcı Tercihi	63.75%	36.25%	N/A	N/A
Filigran	Entegre
Ses Klonlama	Evet	Evet		Sınırlı

Podonos tarafından yürütülen karşılaştırmalı bir testte, dinleyiciler, pazarın önde gelenlerinden biri olarak kabul edilen ElevenLabs'ın tescilli modeline karşı %63,75 oranında Chatterbox'u tercih etti.

Resemble AI, Hugging Face (Gradio) üzerinden bir demo arayüzü sunarak modeli yerel kurulum gerektirmeden test etme imkanı sağlıyor. Daha yoğun veya kritik kullanımlar için şirket, 200 ms'nin altında gecikme süresi ile bir ticari TTS motoru versiyonu sunuyor.

Stephane Nachez

ActuIA yayın kurulu — karar vericiler için yapay zeka üzerine haberler, veriler ve analizler.

Chatterbox: Ses Sentezi Alanında Açık Kaynak Bir Atılım

Chatterbox vs Rakipler

Anthropic, ABD hükümetinin direktifinin ardından Fable 5 ve Mythos 5’i askıya almak zorunda kaldı

Siri AI : Gemini bir motor olarak değil, bir öğretmen olarak - WWDC'nin söylemediği şey

Aynı model, farklı güvenlik önlemleri: Claude Fable 5 ve Mythos 5 lansmanının ortaya koydukları