Geçen Salı, Mistral AI, ilk açık kaynak ses modeli ailesi olan Voxtral'ı duyurdu. Profesyonel kullanımlar için tasarlanan bu konuşma anlama modelleri, Fransız girişim Mistral AI'nın, OpenAI, Meta ve Google gibi oyuncuların hakim olduğu stratejik sesli zeka segmentine girişini simgeliyor.
Voxtral serisi, iki ana modelden oluşuyor: Voxtral Small (24 milyar parametre) ve Voxtral Mini (3 milyar parametre), her biri farklı ortamlar için tasarlanmıştır. Small modeli, karmaşık kullanım senaryoları ve büyük ölçekli bulut dağıtımları için konumlanırken, Mini sürümü, gömülü veya sınırlı kaynaklara sahip dağıtımlar için tasarlanmıştır. Mistral AI ayrıca, Whisper gibi modellere kıyasla daha iyi bir fiyat/performans oranına sahip, yalnızca ses transkripsiyonu için optimize edilmiş Voxtral Mini Transcribe'ı da sunuyor.
Transkripsiyonun Ötesine Geçen Özellikler
Voxtral, güvenilmez ASR (otomatik konuşma tanıma) sistemlerine ve pahalı kapalı ve tescilli API'lere bir alternatif olmayı hedefliyor.
Uzun sesli bağlamları işlemek için tasarlanan bu model, 32.000 tokenlık bir pencere sayesinde 30 dakikalık transkripsiyon veya 40 dakikalık anlama kapasitesine sahiptir.
Mistral Small 3.1 dil modeli mimarisine dayanarak, sözlü taleplere yanıt verebilir, ses dosyalarından özet oluşturabilir veya sözlü olarak ifade edilen bir isteği API çağrısına veya arka uç akışına dönüştürebilir. Model, İngilizce, İspanyolca, Arapça, Fransızca, Portekizce, Hintçe, Almanca, Hollandaca ve İtalyanca gibi en yaygın dilleri destekler.
Üstün Performans
Mistral tarafından paylaşılan ilk değerlendirmelere göre, Voxtral Small, Whisper v3 referans modelini, aynı zamanda Open AI'nın Gemini 2.5 Flash ve GPT-4o Mini Transcribe modellerini de birçok otomatik transkripsiyon metriğinde geride bırakıyor ve kaynak tüketimini kontrol altında tutuyor.
FLEURS'te (aşağıda), Voxtral Small, test edilen tüm dillerde üstün performans gösteriyor ve Whisper'a kıyasla daha yüksek bir doğruluğa sahiptir.

Sesli çeviri görevlerinde, Voxtral Small, GPT-4o Mini ve Gemini ile rekabetçi.
Uygunluk
Apache 2.0 lisansı altında dağıtılan iki model, Hugging Face'te indirilebilir. Voxtral, uygulamalarına entegre etmek isteyenler için dakikası 0,001 $'dan başlayan fiyatlarla API üzerinden de erişilebilir, bu da rakip tekliflerin maliyetinin yarısından daha azına denk geliyor ve yakında Mistral AI'nın sohbet asistanı Le Chat'i zenginleştirecek.
Özel iş bağlamları için, şirketler özellikle yasal veya tıbbi alanlarda özel ve güvenli dağıtımları tercih edebilirler.
Mistral AI, önümüzdeki aylarda ses segmentasyonu, konuşmacı tanımlama (diarizasyon) veya duygu tespiti gibi yeni özellikler eklemeyi planlıyor.
Genişleyen Pazar Dinamiği
Bu lansman, müşteri desteği, etkileşim analizi, otomatik belge oluşturma veya sesli asistan gibi kullanım senaryolarında artan bir hızla talep gören ses transkripsiyonu ve analizi çözümlerinin yoğun talep gördüğü bir dönemde geliyor. Voxtral, Whisper (OpenAI, MIT), SeamlessM4T (Meta, ticari olmayan) veya NVIDIA NeMo veya ESPnet gibi çerçevelerle dolu bir alana giriyor.
Ancak bugün, çok azı, entegre semantik anlama ve sesten eylem tetikleme yeteneği ile tek bir çözümde açık erişim sunmaktadır.
Cet article publirédactionnel est publié dans le cadre d'une collaboration commerciale