API üzerinden yapılan transkripsiyon pazarı 2024-2025 döneminden itibaren prodüksiyon sesine - gürültülü toplantılar, aksanlar, telefon görüşmeleri - doğru kayarken, Gladia tarafından 10 Haziran 2026'da yayımlanan Solaria-3, bu yön değişimini bilinçli bir tercihle teyit ediyor: model gerçek ses üzerinde ilerlerken Multilingual LibriSpeech'te Solaria-1'e karşı %36 geriliyor. Paris merkezli girişim, kendi ölçümlerine göre Earnings22 Cleaned AA üzerinde %6,4 WER ile ilk sırayı aldığını iddia ediyor.
Bu takas bilinçli: Gladia, geniş çok dilli kullanım senaryoları için Solaria-1'i paralel olarak koruyor. Gladia'ya göre Solaria-3'ün getirisi dil bazında da tek tip değil (kendi iç ses verisinde İngilizce -%26, Almanca -%3).
İki yönden de okunabilen bir tablo
Gladia'nın yayımladığı rakamlar, bir uzmanlaşma değişimini ortaya koyuyor. Model, bir çağrı merkezinin karşılaştığı ses koşullarında - 8 kHz telefon görüşmeleri, çok konuşmacılı toplantılar, anadili olmayan aksanlar - ilerlerken, Solaria-1'in üstünlüğünü koruduğu laboratuvar koşullarında geriliyor. Aşağıdaki tablo, Gladia'nın 10 Haziran 2026'da yayımladığı ölçümleri yeniden sunuyor (WER = word error rate, yazıya dökülen kelimelerde hata oranı).
| Benchmark | Ses koşulu | Solaria-3 WER | Referans | Kaynak |
|---|---|---|---|---|
| Earnings22 Cleaned AA | finansal / profesyonel konuşma | %6,4 | AssemblyAI Universal-2: %6,9 | Gladia |
| Switchboard | bozulmuş 8 kHz telefon görüşmesi | %33,9 | ElevenLabs: %55,2 | Gladia |
| Gürültülü ses | arka plan gürültüsü | %1,4 | Mistral Voxtral: %1,0 | Gladia |
| Multilingual LibriSpeech | stüdyoda okunmuş çok dilli ses | %8,0 | Solaria-1: %5,9 (+%36) | Gladia |
| VoxPopuli Cleaned AA | kurumsal / parlamenter ses | %2,9 | Solaria-1: %2,2 (+%32) | Gladia |
Gladia'ya göre Solaria-3, Earnings22'de AssemblyAI Universal-2'yi 0,5 puan farkla geride bırakıyor (%6,4'e karşı %6,9) - bu fark, WER ölçümlerine özgü tipik gürültü marjı içinde yorumlanmalı. Switchboard'da ise yayıncı, modelini kendi iç karşılaştırmasında %35'in altına inebilen tek sistem olarak sunuyor. Ancak kapsam daralıyor: Solaria-3, beş Avrupa dili için optimize edilmiş durumda (İngilizce, Fransızca, Almanca, İspanyolca, İtalyanca), buna karşılık Solaria-1'in Gladia tarafından 100'den fazla dilde, 42'si özel olmak üzere sunulduğu belirtiliyor. Bu rakamların tamamı, Gladia'nın kurum içi sahip olduğu ve etiketlediği veri setine dayanıyor - kamuya açık değil; bu nedenle üçüncü bir tarafın aynı koşullarda yeniden üretim yapması mevcut durumda mümkün değil.
Bu takas, bir B2B alıcısı için STT pazarında ne anlatıyor?
Earnings22, Switchboard ve VoxPopuli, bir B2B alıcısının günlük hayatta karşılaştığı durumları yakalıyor: bilanço toplantıları, 8 kHz telefon konuşmaları, aksanlı parlamenter konuşmalar. Sektör 2024-2025'ten bu yana bu ikinci tipe göre yeniden şekilleniyor ve Solaria-3, 2022'de kurulan ve Ekim 2024'te Series A turunda 16 milyon dolar fon toplayan Paris merkezli girişim Gladia için bu dönüşümü doğruluyor.
En yakın Avrupalı rakip Mistral AI'ın Voxtral'i; ilk olarak Temmuz 2024'te yayımlandı ve 2026 başında Voxtral Transcribe 2'ye kadar güncellendi. Gladia, Voxtral'i ana karşılaştırma tablosuna dahil etmemeyi tercih ediyor; oysa kendi yayın detaylarında Voxtral'in gürültülü seste (%1,0'a karşı %1,4 WER) önde olduğu görülüyor. Uyum tarafında Gladia, EU ve US kümeleriyle birlikte SOC 2 Type II, HIPAA, GDPR ve ISO 27001 sertifikalarını duyuruyor - ancak bu egemenlik argümanı dikkatle değerlendirilmeli: bu, eğitimden değil, çıkarım ve müşteri verisinden söz ediyor.
Bir transkripsiyon sağlayıcısı seçen karar verici için değerlendirme kriteri de pazarla birlikte değişiyor. Toplantı ve çağrı merkezi odaklı bir kullanım senaryosu (Earnings22, Switchboard'a yakın) Solaria-3 üzerinde bir test gerektirirken; geniş çok dillilik ya da temiz ses (belgesel transkripsiyonu, kurumsal okuma) Solaria-1'e veya bir rakibe yönlendiriyor. Gladia'nın liderlik iddiasını netleştirecek unsur tek bir satırda özetlenebilir: üçüncü taraf bir değerlendiricinin aynı ses koşullarında - Earnings22, Switchboard, gürültülü ses - Voxtral, Whisper ve ana bulutta bulunan büyük sağlayıcıların API'lerini de içeren WER ölçümlerini yayımlaması.
