Voxtral: Mistral AI intră pe piața modelelor vocale open source

În scurt : Mistral AI a lansat Voxtral, modele vocale open source pentru utilizări profesionale, oferind o alternativă la soluțiile existente, cu performanțe superioare și costuri reduse.

Marțea trecută, Mistral AI a anunțat lansarea Voxtral, prima sa familie de modele audio open source. Concepute pentru utilizări profesionale, aceste modele de înțelegere a vorbirii marchează intrarea unicornului francez pe segmentul strategic al inteligenței vocale, un domeniu dominat până acum de jucători precum OpenAI, Meta și Google.

Gama Voxtral este disponibilă în două modele principale: Voxtral Small (24 de miliarde de parametri) și Voxtral Mini (3 miliarde de parametri), fiecare destinat unor medii distincte. Modelul Small este poziționat pentru cazuri de utilizare complexe și implementare cloud la scară largă, în timp ce versiunea Mini vizează implementările integrate sau cu resurse limitate. Mistral AI oferă, de asemenea, Voxtral Mini Transcribe, o versiune optimizată doar pentru transcrierea vocală, cu un raport calitate/preț superior modelelor precum Whisper.

Funcționalități care depășesc transcrierea

Voxtral se dorește a fi o alternativă la sistemele ASR (recunoaștere automată a vorbirii) nesigure și la API-urile închise și proprietare costisitoare.

Conceput pentru a procesa contexte audio lungi, poate gestiona până la 30 de minute de transcriere sau 40 de minute de înțelegere, datorită unei ferestre de 32.000 de tokens.

Bazându-se pe arhitectura modelului lingvistic Mistral Small 3.1, poate răspunde la cereri orale, genera rezumate din fișiere audio sau transforma o intenție exprimată oral într-un apel API sau flux backend. Modelul suportă cele mai utilizate limbi, inclusiv engleza, spaniola, araba, franceza, portugheza, hindi, germana, olandeza și italiana.

Performanțe de vârf

Conform primelor evaluări comunicate de Mistral, Voxtral Small depășește modelul de referință Whisper v3, dar și Gemini 2.5 Flash și GPT-4o Mini Transcribe de la Open AI pe mai multe metrici de transcriere automată, afișând în același timp un consum de resurse controlat.

În FLEURS (mai jos), Voxtral Small afișează performanțe de vârf în toate limbile testate, cu o precizie superioară Whisper.

Pe sarcinile de traducere vocală, Voxtral Small este competitiv cu GPT-4o Mini și Gemini.

Disponibilitate

Cele două modele, distribuite sub licență Apache 2.0, sunt disponibile pentru descărcare pe Hugging Face. Voxtral este, de asemenea, accesibil prin API de la 0,001 $/minut pentru cei care doresc să-l integreze în aplicația lor, la mai puțin de jumătate din costul ofertelor concurente, și va îmbogăți în curând asistentul conversațional al Mistral AI, Le Chat.

Pentru contexte de afaceri specifice, companiile pot opta pentru implementări private și securizate, în special în domeniile juridice sau medicale.

Mistral AI intenționează să-i aducă în lunile următoare noi funcționalități, cum ar fi segmentarea audio, diarizarea (identificarea diferiților vorbitori) sau detectarea emoțiilor.

O dinamică de piață în expansiune

Această lansare are loc în condițiile în care soluțiile de transcriere și analiză audio sunt extrem de solicitate, cu o accelerare a cazurilor de utilizare în suportul clienților, analiza interacțiunilor, documentarea automată sau asistența vocală. Voxtral se integrează într-un spațiu deja ocupat de inițiative precum Whisper (OpenAI, MIT), SeamlessM4T (Meta, non-comercial), sau framework-uri ca NVIDIA NeMo sau ESPnet.

Dar puține dintre ele oferă, până în prezent, un acces liber, o înțelegere semantică integrată și capacitatea de a declanșa acțiuni din voce, într-o singură soluție.

Cet article publirédactionnel est publié dans le cadre d'une collaboration commerciale

Tradus de Voxtral : Mistral AI entre sur le marché des modèles vocaux open source