تشاتربوكس: قفزة نوعية مفتوحة المصدر في توليد الصوت

TLDR : كشفت شركة Resemble AI الناشئة عن Chatterbox، وهو أداة لتوليد الصوت مفتوحة المصدر يمكنها تقليد الصوت في بضع ثوانٍ، التحكم في العواطف خلال الكلام، وإنتاج الصوت في الوقت الحقيقي. بالمقارنة مع النماذج المملوكة الأخرى، فضل 63.75% من المستمعين Chatterbox خلال اختبار، مما يجعله بديلًا مثيرًا للاهتمام في السوق.

قدمت الشركة الناشئة Resemble AI الكندية مؤخرًا Chatterbox، وهو أول نموذج TTS (Text-to-Speech) مفتوح المصدر. يتم توزيعه بموجب رخصة MIT، ويعد هذا النموذج لتقليد الصوت بديلاً موثوقًا للحلول المملوكة في السوق، مع تقديم ميزات جديدة لنموذج مفتوح المصدر.

يعتمد Chatterbox على بنية تحتوي على 0.5 مليار من المعلمات، وقد تم تدريبه على 500,000 ساعة من البيانات المنقاة.

الخصائص الرئيسية للنموذج:

تقليد الصوت بدون تدريب مسبق (Zero-Shot) : مع بضع ثوانٍ فقط من الصوت المرجعي، يمكن لـ Chatterbox تقليد أي صوت دون الحاجة إلى تدريب إضافي؛
التحكم في العواطف : خلافًا للنماذج الأخرى لتوليد الصوت، يتيح Chatterbox ضبط شدة العواطف في الكلام، بدءًا من النبرة الرتيبة إلى التعبير الدرامي، حسب احتياجات المستخدم؛
توليد الصوت في الوقت الحقيقي : بفضل التوليد المعتمد على المحاذاة، يعمل النموذج بشكل أسرع من زمن الاستدلال الفعلي، مما يجعله مثاليًا للمساعدات الصوتية، ألعاب الفيديو والتطبيقات التفاعلية.
علامة مائية أمنية : يتضمن كل ملف صوتي يتم توليده علامة مائية إدراكية (PerTh Watermarker)، مما يضمن الشفافية وتتبع المحتوى المنتج.

يتم تبسيط استخدام Chatterbox بفضل مكتبة Python المخصصة (chatterbox-tts)، المتوافقة مع CUDA. يمكن تهيئة النموذج محليًا أو من النماذج المدربة مسبقًا. يمكن للمطورين أيضًا تقديم عينات صوتية مخصصة (audio prompts) لضبط النمط أو الصوت المستهدف.

قامت Resemble AI بمقارنة Chatterbox بالنماذج المملوكة في السوق.

تشاتربوكس مقابل المنافسة

الخاصية	تشاتربوكس	ElevenLabs	Google TTS	Azure TTS
الرخصة	MIT (مجانية)	مملوكة	مملوكة	مملوكة
التحكم في العواطف	متقدم	أساسي
الكمون	<200 ms	~300 ms	~400 ثواني	~500 ms
تفضيل المستخدم	63.75%	36.25%	غير متاح	غير متاح
علامة مائية	مدمجة
تقليد الصوت	نعم	نعم		محدود

في اختبار مقارن أجرته Podonos، فضل المستمعون Chatterbox في 63.75% من الحالات مقارنة بالنموذج المملوك لـ ElevenLabs، والذي يعتبر واحدًا من القادة في السوق.

تتيح Resemble AI واجهة تجريبية عبر Hugging Face (Gradio)، مما يسمح باختبار النموذج دون الحاجة إلى تثبيت محلي. للاستخدامات الأكثر كثافة أو الحرجة، تقدم الشركة نسخة تجارية من محرك TTS بزمن استجابة أقل من 200 ميلي ثانية.

ترجمة من Chatterbox : une percée open source dans la synthèse vocale