Ринок API-транскрипції у 2024–2025 роках зміщується в бік production-аудіо — шумних зустрічей, акцентів, телефонії — і Solaria-3, опублікована Gladia 10 червня 2026 року, підкріплює цей зсув свідомим компромісом: модель покращує результати на реальному аудіо, але просідає на 36 % на Multilingual LibriSpeech порівняно з Solaria-1. Паризький стартап заявляє про перше місце на Earnings22 Cleaned AA з WER 6,4 % — за власними вимірюваннями.
Цей trade-off є усвідомленим: Gladia паралельно зберігає Solaria-1 для широких багатомовних сценаріїв. Перевага Solaria-3, за даними Gladia, не є однаковою для всіх мов (англійська −26 %, німецька −3 % на внутрішньому аудіо компанії).
Таблиця, яку можна читати в обидва боки
Опубліковані Gladia цифри демонструють зміну спеціалізації. Модель покращує показники на тих типах аудіо, з якими стикається кол-центр — телефонія 8 кГц, багатоголосі зустрічі, ненативні акценти — і поступається в лабораторних умовах, де Solaria-1 зберігає перевагу. Наведена нижче таблиця відтворює вимірювання, опубліковані Gladia 10 червня 2026 року (WER = word error rate, частка помилок у словах під час транскрипції).
| Benchmark | Умови аудіо | Solaria-3 WER | Референс | Джерело |
|---|---|---|---|---|
| Earnings22 Cleaned AA | фінансове / професійне мовлення | 6,4 % | AssemblyAI Universal-2: 6,9 % | Gladia |
| Switchboard | деградована телефонія 8 кГц | 33,9 % | ElevenLabs: 55,2 % | Gladia |
| Шумне аудіо | фоновий шум | 1,4 % | Mistral Voxtral: 1,0 % | Gladia |
| Multilingual LibriSpeech | студійне читане аудіо, багатомовне | 8,0 % | Solaria-1: 5,9 % (+36 %) | Gladia |
| VoxPopuli Cleaned AA | інституційне / парламентське аудіо | 2,9 % | Solaria-1: 2,2 % (+32 %) | Gladia |
За даними Gladia, Solaria-3 випереджає AssemblyAI Universal-2 на Earnings22 на 0,5 пункту (6,4 % проти 6,9 %) — різниця, яку слід інтерпретувати в межах типової похибки WER. На Switchboard видавець представляє свою модель як єдину в домашньому порівнянні, що опускається нижче 35 %. Водночас рамки застосування звужуються: Solaria-3 оптимізована для п’яти європейських мов (англійська, французька, німецька, іспанська, італійська), тоді як Solaria-1, за заявою Gladia, підтримує понад 100 мов, зокрема 42 ексклюзивні. Усі ці цифри базуються на внутрішньому датасеті Gladia, який є власницьким і анотований всередині компанії — він не є публічним, тож незалежне відтворення результатів наразі неможливе.
Що цей trade-off означає для ринку STT з погляду B2B-замовника
Earnings22, Switchboard і VoxPopuli відображають те, з чим B2B-замовник стикається щодня: конференц-дзвінки, телефонні розмови 8 кГц, парламентські виступи з акцентами. З 2024–2025 років галузь дедалі більше переорієнтовується саме на цей другий тип сценаріїв, і Solaria-3 для Gladia, паризького стартапу, заснованого у 2022 році та профінансованого раундом Series A на 16 млн $ у жовтні 2024 року, лише підтверджує цей зсув.
Найближчим європейським конкурентом є Voxtral від Mistral AI, опублікований у липні 2024 року та доопрацьований до Voxtral Transcribe 2 на початку 2026 року. Gladia вирішує не включати його до основної порівняльної таблиці, хоча у власній публікації компанії Voxtral випереджає Solaria-3 на шумному аудіо (1,0 % проти 1,4 % WER). З точки зору комплаєнсу Gladia заявляє про сертифікації SOC 2 Type II, HIPAA, GDPR, ISO 27001, а також про EU- і US-кластери — аргумент про суверенність, який варто оцінювати обережно: він стосується інференсу та клієнтських даних, а не навчання моделі.
Для керівника, який обирає постачальника транскрипції, критерій оцінювання, таким чином, зміщується разом із ринком. Сценарій, орієнтований на зустрічі та кол-центри (близький до Earnings22 і Switchboard), потребує тесту на Solaria-3; широкомовний багатомовний кейс або чисте аудіо (транскрипція документальних матеріалів, інституційне читання) радше веде до Solaria-1 або до конкурента. Питання, яке остаточно перевірить заяву Gladia про лідерство, зводиться до одного рядка: публікація незалежним оцінювачем WER-метрик на тих самих типах аудіо — Earnings22, Switchboard, шумне аудіо — включно з Voxtral, Whisper та API великих хмарних провайдерів, відсутніх у внутрішньому порівнянні.
