Voxtral: دخول Mistral AI إلى سوق النماذج الصوتية المفتوحة المصدر

TLDR : Mistral AI تطلق Voxtral، نماذج صوتية مفتوحة المصدر للاستخدامات المهنية، متفوقة في الأداء على المنافسين مثل Whisper وGPT-4o Mini.

أعلنت Mistral AI يوم الثلاثاء الماضي عن إطلاق Voxtral، أول عائلة من النماذج الصوتية المفتوحة المصدر. مصممة للاستخدامات المهنية، تمثل هذه النماذج لفهم الكلام دخول الشركة الفرنسية الناشئة إلى القطاع الاستراتيجي للذكاء الصوتي، وهو مجال كان يهيمن عليه حتى الآن لاعبين مثل OpenAI، Meta وGoogle.

تتضمن مجموعة Voxtral نموذجين رئيسيين: Voxtral Small (24 مليار بارامتر) وVoxtral Mini (3 مليارات بارامتر)، كل منهما موجه لبيئات مختلفة. يتميز نموذج Small بالاستخدامات المعقدة والنشر السحابي على نطاق واسع، بينما تستهدف نسخة Mini النشر المدمج أو ذي الموارد المحدودة. تقدم Mistral AI أيضًا Voxtral Mini Transcribe، وهي نسخة محسنة فقط لعملية النسخ الصوتي، مع نسبة جودة/سعر أعلى من نماذج مثل Whisper.

ميزات تتجاوز النسخ

يهدف Voxtral إلى أن يكون بديلاً للأنظمة ASR (التعرف التلقائي على الكلام) غير الموثوقة وAPI المغلقة والمكلّفة.

مصمم للتعامل مع سياقات صوتية طويلة، حيث يمكنه إدارة ما يصل إلى 30 دقيقة من النسخ أو 40 دقيقة من الفهم، بفضل نافذة من 32,000 tokens.

مستندًا إلى بنية النموذج اللغوي Mistral Small 3.1، يمكنه الاستجابة لطلبات شفهية، إنشاء ملخصات من الملفات الصوتية أو تحويل نية معبّر عنها شفهياً إلى اتصال API أو تدفق backend. يدعم النموذج اللغات الأكثر استخدامًا بما في ذلك الإنجليزية، الإسبانية، العربية، الفرنسية، البرتغالية، الهندية، الألمانية، الهولندية والإيطالية.

أداء متقدم

وفقًا للتقييمات الأولية التي قدمتها Mistral، يتفوق Voxtral Small على النموذج المرجعي Whisper v3، وكذلك Gemini 2.5 Flash وGPT-4o Mini Transcribe من Open AI في عدة مقاييس للنسخ التلقائي، بينما يحافظ على استهلاك موارد متحكم به.

في FLEURS (أدناه)، يظهر Voxtral Small أداءً متقدمًا في جميع اللغات المختبرة، مع دقة أعلى من Whisper.

في مهام الترجمة الصوتية، يتمتع Voxtral Small بقدرة تنافسية مع GPT-4o Mini وGemini.

التوافر

النموذجان، الموزعان بموجب رخصة Apache 2.0، متاحان للتنزيل على Hugging Face. كما يمكن الوصول إلى Voxtral عبر API ابتداءً من 0.001 دولار/دقيقة لأولئك الذين يرغبون في دمجه في تطبيقاتهم، وهو أقل من نصف تكلفة العروض المنافسة، وسيتم قريبًا تعزيز المساعد الحواري لـ Mistral AI، Le Chat.

بالنسبة للسياقات المهنية المحددة، يمكن للشركات اختيار نشرات خاصة وآمنة، لا سيما في المجالات القانونية أو الطبية.

تخطط Mistral AI لتقديم ميزات جديدة في الأشهر القادمة مثل تجزئة الصوت، تحديد المتحدثين أو اكتشاف العواطف.

ديناميكية سوق متنامية

يأتي هذا الإطلاق فيما تتزايد الحاجة إلى حلول النسخ وتحليل الصوت، مع تسارع حالات الاستخدام في دعم العملاء، تحليل التفاعلات، التوثيق الآلي أو المساعدة الصوتية. يندمج Voxtral في مساحة مشغولة بالفعل بمبادرات مثل Whisper (OpenAI، MIT)، SeamlessM4T (Meta، غير تجاري)، أو frameworks مثل NVIDIA NeMo أو ESPnet.

لكن القليل منهم يقدم حتى الآن وصولاً مجانيًا، فهمًا دلاليًا مدمجًا وقدرة على تشغيل الإجراءات من الصوت، في حل واحد ومتكامل.

Cet article publirédactionnel est publié dans le cadre d'une collaboration commerciale

ترجمة من Voxtral : Mistral AI entre sur le marché des modèles vocaux open source

Voxtral: دخول Mistral AI إلى سوق النماذج الصوتية المفتوحة المصدر

المحتوى

ميزات تتجاوز النسخ

أداء متقدم

التوافر

ديناميكية سوق متنامية