Yapay zeka hakkında başvurabileceğiniz referans bilgi kaynağınız.

Yeni model

Solaria-3: Gladia, kendi ölçümlerine göre prodüksiyon sesinde lider

STStephane Nachez · ·3 min
Solaria-3: Gladia, kendi ölçümlerine göre prodüksiyon sesinde lider
İçindekiler

API üzerinden yapılan transkripsiyon pazarı 2024-2025 döneminden itibaren prodüksiyon sesine - gürültülü toplantılar, aksanlar, telefon görüşmeleri - doğru kayarken, Gladia tarafından 10 Haziran 2026'da yayımlanan Solaria-3, bu yön değişimini bilinçli bir tercihle teyit ediyor: model gerçek ses üzerinde ilerlerken Multilingual LibriSpeech'te Solaria-1'e karşı %36 geriliyor. Paris merkezli girişim, kendi ölçümlerine göre Earnings22 Cleaned AA üzerinde %6,4 WER ile ilk sırayı aldığını iddia ediyor.

Bu takas bilinçli: Gladia, geniş çok dilli kullanım senaryoları için Solaria-1'i paralel olarak koruyor. Gladia'ya göre Solaria-3'ün getirisi dil bazında da tek tip değil (kendi iç ses verisinde İngilizce -%26, Almanca -%3).

İki yönden de okunabilen bir tablo

Gladia'nın yayımladığı rakamlar, bir uzmanlaşma değişimini ortaya koyuyor. Model, bir çağrı merkezinin karşılaştığı ses koşullarında - 8 kHz telefon görüşmeleri, çok konuşmacılı toplantılar, anadili olmayan aksanlar - ilerlerken, Solaria-1'in üstünlüğünü koruduğu laboratuvar koşullarında geriliyor. Aşağıdaki tablo, Gladia'nın 10 Haziran 2026'da yayımladığı ölçümleri yeniden sunuyor (WER = word error rate, yazıya dökülen kelimelerde hata oranı).

Benchmark Ses koşulu Solaria-3 WER Referans Kaynak
Earnings22 Cleaned AA finansal / profesyonel konuşma %6,4 AssemblyAI Universal-2: %6,9 Gladia
Switchboard bozulmuş 8 kHz telefon görüşmesi %33,9 ElevenLabs: %55,2 Gladia
Gürültülü ses arka plan gürültüsü %1,4 Mistral Voxtral: %1,0 Gladia
Multilingual LibriSpeech stüdyoda okunmuş çok dilli ses %8,0 Solaria-1: %5,9 (+%36) Gladia
VoxPopuli Cleaned AA kurumsal / parlamenter ses %2,9 Solaria-1: %2,2 (+%32) Gladia

Gladia'ya göre Solaria-3, Earnings22'de AssemblyAI Universal-2'yi 0,5 puan farkla geride bırakıyor (%6,4'e karşı %6,9) - bu fark, WER ölçümlerine özgü tipik gürültü marjı içinde yorumlanmalı. Switchboard'da ise yayıncı, modelini kendi iç karşılaştırmasında %35'in altına inebilen tek sistem olarak sunuyor. Ancak kapsam daralıyor: Solaria-3, beş Avrupa dili için optimize edilmiş durumda (İngilizce, Fransızca, Almanca, İspanyolca, İtalyanca), buna karşılık Solaria-1'in Gladia tarafından 100'den fazla dilde, 42'si özel olmak üzere sunulduğu belirtiliyor. Bu rakamların tamamı, Gladia'nın kurum içi sahip olduğu ve etiketlediği veri setine dayanıyor - kamuya açık değil; bu nedenle üçüncü bir tarafın aynı koşullarda yeniden üretim yapması mevcut durumda mümkün değil.

Bu takas, bir B2B alıcısı için STT pazarında ne anlatıyor?

Earnings22, Switchboard ve VoxPopuli, bir B2B alıcısının günlük hayatta karşılaştığı durumları yakalıyor: bilanço toplantıları, 8 kHz telefon konuşmaları, aksanlı parlamenter konuşmalar. Sektör 2024-2025'ten bu yana bu ikinci tipe göre yeniden şekilleniyor ve Solaria-3, 2022'de kurulan ve Ekim 2024'te Series A turunda 16 milyon dolar fon toplayan Paris merkezli girişim Gladia için bu dönüşümü doğruluyor.

En yakın Avrupalı rakip Mistral AI'ın Voxtral'i; ilk olarak Temmuz 2024'te yayımlandı ve 2026 başında Voxtral Transcribe 2'ye kadar güncellendi. Gladia, Voxtral'i ana karşılaştırma tablosuna dahil etmemeyi tercih ediyor; oysa kendi yayın detaylarında Voxtral'in gürültülü seste (%1,0'a karşı %1,4 WER) önde olduğu görülüyor. Uyum tarafında Gladia, EU ve US kümeleriyle birlikte SOC 2 Type II, HIPAA, GDPR ve ISO 27001 sertifikalarını duyuruyor - ancak bu egemenlik argümanı dikkatle değerlendirilmeli: bu, eğitimden değil, çıkarım ve müşteri verisinden söz ediyor.

Bir transkripsiyon sağlayıcısı seçen karar verici için değerlendirme kriteri de pazarla birlikte değişiyor. Toplantı ve çağrı merkezi odaklı bir kullanım senaryosu (Earnings22, Switchboard'a yakın) Solaria-3 üzerinde bir test gerektirirken; geniş çok dillilik ya da temiz ses (belgesel transkripsiyonu, kurumsal okuma) Solaria-1'e veya bir rakibe yönlendiriyor. Gladia'nın liderlik iddiasını netleştirecek unsur tek bir satırda özetlenebilir: üçüncü taraf bir değerlendiricinin aynı ses koşullarında - Earnings22, Switchboard, gürültülü ses - Voxtral, Whisper ve ana bulutta bulunan büyük sağlayıcıların API'lerini de içeren WER ölçümlerini yayımlaması.

ST
Stephane Nachez
subscriber

ActuIA yayın kurulu — karar vericiler için yapay zeka üzerine haberler, veriler ve analizler.