Yeni model

Chatterbox: Ses Sentezi Alanında Açık Kaynak Bir Atılım

Resemble AI, Chatterbox'u tanıttı, bu açık kaynak ses sentezleme aracı, bir sesi saniyeler içinde taklit edebilir, konuşmanın duygusunu kontrol edebilir ve gerçek zamanlı ses üretebilir. Diğer tescilli modellere kıyasla, Chatterbox, bir testte dinleyicilerin %63,75'i tarafından tercih edildi ve pazarda ilginç bir alternatif olarak konumlandı.

STStephane Nachez · ·2 min
Chatterbox: Ses Sentezi Alanında Açık Kaynak Bir Atılım
İçindekiler
Kanadalı start-up Resemble AI, yakın zamanda Chatterbox'u, ilk açık kaynak TTS (Metinden Sese) modelini tanıttı. MIT lisansı altında dağıtılan bu ses klonlama modeli, pazarın tescilli çözümlerine karşı güvenilir bir alternatif olarak konumlanırken, açık kaynak bir model için benzersiz özellikler sunuyor.
Chatterbox, 0,5 milyar parametreli bir mimariye dayanıyor ve 500.000 saatlik temizlenmiş veriler üzerinde eğitildi. 
Modelin önemli özellikleri:
  • Sıfır-Atış Ses Klonlama: Yalnızca birkaç saniyelik referans ses ile Chatterbox, herhangi bir sesi ek eğitim gerektirmeden taklit edebilir;
  • Duygusal Kontrol: Diğer ses sentezleme modellerinin aksine, Chatterbox konuşmanın duygusal yoğunluğunu ayarlamaya olanak tanır ve kullanıcının ihtiyaçlarına göre tekdüze bir tondan dramatik bir ifade gücüne kadar değişir;
  • Gerçek Zamanlı Ses Sentezi: Hizalamaya dayalı üretimi sayesinde model, gerçek zamanlı çıkarım süresinden daha hızlı çalışır, bu da onu sesli asistanlar, video oyunları ve etkileşimli uygulamalar için ideal kılar.
  • Güvenlik Filigranı: Üretilen her ses dosyası, PerTh Watermarker adı verilen algısal bir filigran içerir, bu da üretilen içeriğin şeffaflığını ve izlenebilirliğini sağlar.
Chatterbox'un kullanımı, CUDA ile uyumlu özel bir Python kütüphanesi (chatterbox-tts) sayesinde basitleştirilmiştir. Model yerel olarak veya önceden eğitilmiş modellerden başlatılabilir. Geliştiriciler ayrıca stil veya hedef sesi ayarlamak için özel ses örnekleri (audio prompts) sağlayabilirler.
Resemble AI, Chatterbox'u pazarın tescilli modelleriyle karşılaştırdı.


Chatterbox vs Rakipler

Özellik
Bavard
ElevenLabs
Google TTS
Azure TTS
Lisans
MIT (Ücretsiz)
Tescilli
Tescilli
Tescilli
Duygusal Kontrol
✅ Gelişmiş
✅ Temel
❌
❌
Gecikme
<200 ms
~300 ms
~400 saniye
~500 ms
Kullanıcı Tercihi
63.75%
36.25%
N/A
N/A
Filigran
✅ Entegre
❌
❌
❌
Ses Klonlama
✅ Evet
✅ Evet
❌
✅ Sınırlı
 
Podonos tarafından yürütülen karşılaştırmalı bir testte, dinleyiciler, pazarın önde gelenlerinden biri olarak kabul edilen ElevenLabs'ın tescilli modeline karşı %63,75 oranında Chatterbox'u tercih etti.
Resemble AI, Hugging Face (Gradio) üzerinden bir demo arayüzü sunarak modeli yerel kurulum gerektirmeden test etme imkanı sağlıyor. Daha yoğun veya kritik kullanımlar için şirket, 200 ms'nin altında gecikme süresi ile bir ticari TTS motoru versiyonu sunuyor.
 
 
ST
Stephane Nachez

ActuIA yayın kurulu — karar vericiler için yapay zeka üzerine haberler, veriler ve analizler.

Adı geçen aktörler
REResemble AI
HUHugging Face
ELElevenLabs
GOGoogle
ActuIA Haftalık

Kayıt onaylandı, yakında görüşmek üzere!