Voxtral: Mistral AI виходить на ринок відкритих голосових моделей

Минулого вівторка Mistral AI оголосила про запуск Voxtral, своєї першої сім'ї аудіо моделей з відкритим кодом. Розроблені для професійного використання, ці моделі розуміння мови знаменують вступ французького єдинорога на стратегічний сегмент голосового інтелекту, область, яка до цього часу була домінована такими гравцями, як OpenAI, Meta та Google.

Лінійка Voxtral представлена двома основними моделями: Voxtral Small (24 мільярди параметрів) та Voxtral Mini (3 мільярди параметрів), кожна з яких призначена для різних середовищ. Модель Small орієнтована на складні випадки використання та великомасштабне хмарне розгортання, тоді як версія Mini націлена на вбудовані або обмежені ресурси розгортання. Mistral AI також пропонує Voxtral Mini Transcribe, оптимізовану версію виключно для голосової транскрипції, з кращим співвідношенням якість/ціна, ніж у моделей на кшталт Whisper.

Функціональність, що виходить за рамки транскрипції

Voxtral прагне стати альтернативою ненадійним системам ASR (автоматичного розпізнавання мови) і дорогим закритим та власним API.

Розроблений для обробки довгих аудіо контекстів, він може обробляти до 30 хвилин транскрипції або 40 хвилин розуміння, завдяки вікну з 32,000 токенів.

Спираючись на архітектуру мовної моделі Mistral Small 3.1, він може відповідати на усні запити, генерувати резюме з аудіофайлів або переводити усно виражений намір в API виклик або backend потік. Модель підтримує найпоширеніші мови, зокрема англійську, іспанську, арабську, французьку, португальську, хінді, німецьку, нідерландську та італійську.

Високі показники

Згідно з першими оцінками, наданими Mistral, Voxtral Small перевершує модель еталона Whisper v3, але також Gemini 2.5 Flash та GPT-4o Mini Transcribe від Open AI за кількома метриками автоматичної транскрипції, при цьому демонструючи контрольоване споживання ресурсів.

У FLEURS (нижче) Voxtral Small демонструє високі результати у всіх протестованих мовах, з точністю, що перевищує Whisper.

На завданнях голосового перекладу Voxtral Small конкурує з GPT-4o Mini та Gemini.

Доступність

Обидві моделі, розповсюджені під ліцензією Apache 2.0, доступні для завантаження на Hugging Face. Voxtral також доступний через API з 0,001 $/хвилину для тих, хто бажає інтегрувати його у свій додаток, що менше ніж половина вартості конкурентних пропозицій, і незабаром буде додано в розмовного асистента Mistral AI, Le Chat.

Для специфічних бізнес-контекстів підприємства можуть вибирати приватні та безпечні розгортання, зокрема у юридичних чи медичних сферах.

Mistral AI планує додати до нього в найближчі місяці нові функції, такі як аудіо сегментація, діаризація (ідентифікація різних мовців) або виявлення емоцій.

Розширення ринкової динаміки

Цей запуск відбувається на тлі високого попиту на рішення для транскрипції та аналізу аудіо, з прискоренням випадків використання в підтримці клієнтів, аналізі взаємодій, автоматизованій документації або голосовій допомозі. Voxtral вписується в простір, вже зайнятий такими ініціативами, як Whisper (OpenAI, MIT), SeamlessM4T (Meta, некомерційний), або такими фреймворками, як NVIDIA NeMo або ESPnet.

Але мало хто з них на сьогоднішній день пропонує вільний доступ, вбудоване семантичне розуміння та здатність ініціювати дії на основі голосу в одному рішенні.

Cet article publirédactionnel est publié dans le cadre d'une collaboration commerciale

Перекладено з Voxtral : Mistral AI entre sur le marché des modèles vocaux open source

Voxtral: Mistral AI виходить на ринок відкритих голосових моделей

Зміст

Функціональність, що виходить за рамки транскрипції

Високі показники

Доступність

Розширення ринкової динаміки