Solaria-3: Gladia في الصدارة في الصوت الإنتاجي، وفقًا لقياساتها الخاصة

يشهد سوق النسخ عبر API منذ 2024-2025 تحولًا نحو الصوت الإنتاجي - الاجتماعات المليئة بالضوضاء، واللهجات، والاتصالات الهاتفية - وSolaria-3، الذي أطلقته Gladia في 10 يونيو 2026، يكرّس هذا التحول بخيار مقصود: فالنموذج يتحسن على الصوت الواقعي لكنه يتراجع بنسبة 36% على Multilingual LibriSpeech مقارنةً بـ Solaria-1. وتدّعي الشركة الناشئة الباريسية المركز الأول على Earnings22 Cleaned AA مع معدل خطأ في الكلمات (WER) يبلغ 6.4%، وفقًا لقياساتها الخاصة.

هذا المفاضلة مقصودة: إذ تُبقي Gladia على Solaria-1 بالتوازي لحالات الاستخدام متعددة اللغات على نطاق واسع. كما أن مكاسب Solaria-3 ليست موحّدة حسب اللغة وفقًا لـ Gladia (الإنجليزية -26%، الألمانية -3% على صوتها الداخلي).

جدول يمكن قراءته في الاتجاهين

الأرقام التي نشرتها Gladia ترسم انتقالًا في التخصص. فالنموذج يتحسن في ظروف الصوت التي يواجهها مركز الاتصالات - الاتصالات الهاتفية بسرعة 8 كيلوهرتز، الاجتماعات متعددة المتحدثين، واللهجات غير الأصلية - ويتراجع في ظروف المختبر حيث يحتفظ Solaria-1 بالأفضلية. ويعرض الجدول أدناه القياسات التي نشرتها Gladia في 10 يونيو 2026 (WER = word error rate، أي معدل الخطأ في الكلمات المنسوخة).

المرجع	حالة الصوت	معدل خطأ Solaria-3	المرجع المقارن	المصدر
Earnings22 Cleaned AA	خطاب مالي / مهني	6.4%	AssemblyAI Universal-2: 6.9%	Gladia
Switchboard	اتصالات هاتفية متدهورة بسرعة 8 كيلوهرتز	33.9%	ElevenLabs: 55.2%	Gladia
صوت مليء بالضوضاء	ضجيج خلفي	1.4%	Mistral Voxtral: 1.0%	Gladia
Multilingual LibriSpeech	صوت مقروء في الاستوديو، متعدد اللغات	8.0%	Solaria-1: 5.9% (+36%)	Gladia
VoxPopuli Cleaned AA	صوت مؤسسي / برلماني	2.9%	Solaria-1: 2.2% (+32%)	Gladia

بحسب Gladia، يتفوق Solaria-3 على AssemblyAI Universal-2 في Earnings22 بفارق 0.5 نقطة (6.4% مقابل 6.9%) - وهو فارق ينبغي تفسيره ضمن هامش الضجيج المعتاد في قياسات WER. أما على Switchboard، فتقدّم الشركة نموذجها باعتباره الوحيد في المقارنة الداخلية الذي ينزل تحت 35%. غير أن النطاق أضيق: إذ إن Solaria-3 مُحسَّن لخمس لغات أوروبية فقط (الإنجليزية، الفرنسية، الألمانية، الإسبانية، الإيطالية)، بينما ما يزال Solaria-1، وفقًا لـ Gladia، يدعم أكثر من 100 لغة، بينها 42 لغة حصرية. وكل هذه الأرقام تستند إلى مجموعة بيانات داخلية مملوكة لـ Gladia وموسومة داخليًا - وهي غير متاحة للعامة، ما يجعل إعادة إنتاج النتائج من طرف ثالث أمرًا غير ممكن في الوضع الحالي.

ما الذي تقوله هذه المفاضلة عن سوق STT بالنسبة لمشتري B2B؟

تلتقط Earnings22 وSwitchboard وVoxPopuli ما يواجهه المشتري في قطاع B2B يوميًا: مكالمات النتائج الفصلية، والمحادثات الهاتفية بسرعة 8 كيلوهرتز، والخطابات البرلمانية ذات اللكنة. وقد أعاد القطاع تعريف نفسه حول هذا النمط الثاني منذ 2024-2025، ويؤكد Solaria-3 هذا التحول بالنسبة إلى Gladia، الشركة الناشئة الباريسية التي تأسست في 2022 وحصلت على تمويل بقيمة 16 مليون دولار في جولة Series A في أكتوبر 2024.

وأقرب منافس أوروبي هو Voxtral من Mistral AI، الذي صدر في يوليو 2024 ثم خضع لتحديثات متتالية حتى Voxtral Transcribe 2 في مطلع 2026. وتختار Gladia عدم إدراجه في جدول المقارنة الرئيسي، رغم أن Voxtral يتفوق عليه في الصوت المليء بالضوضاء (1.0% مقابل 1.4% WER) بحسب التفاصيل الواردة في منشورها نفسه. وعلى صعيد الامتثال، تعلن Gladia حصولها على شهادات SOC 2 Type II وHIPAA وRGPD وISO 27001، مع عناقيد في الاتحاد الأوروبي والولايات المتحدة - وهي حجة للسيادة الرقمية ينبغي وزنها بعناية: فهي تتعلق بالاستدلال وبيانات العملاء، لا بالتدريب.

وبالنسبة إلى صانع القرار الذي يختار مزودًا لخدمة النسخ، فإن معيار التقييم ينتقل بالتالي مع السوق. فحالة استخدام تتمحور حول الاجتماعات ومراكز الاتصال (قريبة من Earnings22 وSwitchboard) تستدعي اختبارًا على Solaria-3؛ أما الاستخدام متعدد اللغات على نطاق واسع أو الصوت النظيف (نسخ الوثائقيات أو القراءة المؤسسية) فيعيد التوجه نحو Solaria-1 أو نحو منافس آخر. والنقطة التي ستحسم ادعاء Gladia بالصدارة تختصر في سطر واحد: نشر قياسات WER من قبل جهة تقييم مستقلة، على نفس ظروف الصوت - Earnings22 وSwitchboard والصوت المليء بالضوضاء - بما في ذلك Voxtral وWhisper وواجهات API الخاصة بكبار مزودي السحابة الغائبين عن المقارنة الداخلية.

Stephane Nachez

هيئة تحرير ActuIA — أخبار وبيانات وتحليلات حول الذكاء الاصطناعي لصنّاع القرار.

Solaria-3: Gladia في الصدارة في الصوت الإنتاجي، وفقًا لقياساتها الخاصة

جدول يمكن قراءته في الاتجاهين

ما الذي تقوله هذه المفاضلة عن سوق STT بالنسبة لمشتري B2B؟

نفس النموذج، لكن بضمانات مختلفة: ما الذي يكشفه إطلاق Claude Fable 5 وMythos 5

ستاربكس تسحب أداة الرؤية الحاسوبية NomadGo بعد تسعة أشهر في 11,000 متجر

Cigref: 140 مليار يورو من التكاليف الإضافية <span dir="ltr">cloud</span> في أوروبا، <span dir="ltr">AI</span> في الحزمة هو السبب الثاني