Solaria-3: Gladia лідирує в production-аудіо, за власними вимірюваннями

Ринок API-транскрипції у 2024–2025 роках зміщується в бік production-аудіо — шумних зустрічей, акцентів, телефонії — і Solaria-3, опублікована Gladia 10 червня 2026 року, підкріплює цей зсув свідомим компромісом: модель покращує результати на реальному аудіо, але просідає на 36 % на Multilingual LibriSpeech порівняно з Solaria-1. Паризький стартап заявляє про перше місце на Earnings22 Cleaned AA з WER 6,4 % — за власними вимірюваннями.

Цей trade-off є усвідомленим: Gladia паралельно зберігає Solaria-1 для широких багатомовних сценаріїв. Перевага Solaria-3, за даними Gladia, не є однаковою для всіх мов (англійська −26 %, німецька −3 % на внутрішньому аудіо компанії).

Таблиця, яку можна читати в обидва боки

Опубліковані Gladia цифри демонструють зміну спеціалізації. Модель покращує показники на тих типах аудіо, з якими стикається кол-центр — телефонія 8 кГц, багатоголосі зустрічі, ненативні акценти — і поступається в лабораторних умовах, де Solaria-1 зберігає перевагу. Наведена нижче таблиця відтворює вимірювання, опубліковані Gladia 10 червня 2026 року (WER = word error rate, частка помилок у словах під час транскрипції).

Benchmark	Умови аудіо	Solaria-3 WER	Референс	Джерело
Earnings22 Cleaned AA	фінансове / професійне мовлення	6,4 %	AssemblyAI Universal-2: 6,9 %	Gladia
Switchboard	деградована телефонія 8 кГц	33,9 %	ElevenLabs: 55,2 %	Gladia
Шумне аудіо	фоновий шум	1,4 %	Mistral Voxtral: 1,0 %	Gladia
Multilingual LibriSpeech	студійне читане аудіо, багатомовне	8,0 %	Solaria-1: 5,9 % (+36 %)	Gladia
VoxPopuli Cleaned AA	інституційне / парламентське аудіо	2,9 %	Solaria-1: 2,2 % (+32 %)	Gladia

За даними Gladia, Solaria-3 випереджає AssemblyAI Universal-2 на Earnings22 на 0,5 пункту (6,4 % проти 6,9 %) — різниця, яку слід інтерпретувати в межах типової похибки WER. На Switchboard видавець представляє свою модель як єдину в домашньому порівнянні, що опускається нижче 35 %. Водночас рамки застосування звужуються: Solaria-3 оптимізована для п’яти європейських мов (англійська, французька, німецька, іспанська, італійська), тоді як Solaria-1, за заявою Gladia, підтримує понад 100 мов, зокрема 42 ексклюзивні. Усі ці цифри базуються на внутрішньому датасеті Gladia, який є власницьким і анотований всередині компанії — він не є публічним, тож незалежне відтворення результатів наразі неможливе.

Що цей trade-off означає для ринку STT з погляду B2B-замовника

Earnings22, Switchboard і VoxPopuli відображають те, з чим B2B-замовник стикається щодня: конференц-дзвінки, телефонні розмови 8 кГц, парламентські виступи з акцентами. З 2024–2025 років галузь дедалі більше переорієнтовується саме на цей другий тип сценаріїв, і Solaria-3 для Gladia, паризького стартапу, заснованого у 2022 році та профінансованого раундом Series A на 16 млн $ у жовтні 2024 року, лише підтверджує цей зсув.

Найближчим європейським конкурентом є Voxtral від Mistral AI, опублікований у липні 2024 року та доопрацьований до Voxtral Transcribe 2 на початку 2026 року. Gladia вирішує не включати його до основної порівняльної таблиці, хоча у власній публікації компанії Voxtral випереджає Solaria-3 на шумному аудіо (1,0 % проти 1,4 % WER). З точки зору комплаєнсу Gladia заявляє про сертифікації SOC 2 Type II, HIPAA, GDPR, ISO 27001, а також про EU- і US-кластери — аргумент про суверенність, який варто оцінювати обережно: він стосується інференсу та клієнтських даних, а не навчання моделі.

Для керівника, який обирає постачальника транскрипції, критерій оцінювання, таким чином, зміщується разом із ринком. Сценарій, орієнтований на зустрічі та кол-центри (близький до Earnings22 і Switchboard), потребує тесту на Solaria-3; широкомовний багатомовний кейс або чисте аудіо (транскрипція документальних матеріалів, інституційне читання) радше веде до Solaria-1 або до конкурента. Питання, яке остаточно перевірить заяву Gladia про лідерство, зводиться до одного рядка: публікація незалежним оцінювачем WER-метрик на тих самих типах аудіо — Earnings22, Switchboard, шумне аудіо — включно з Voxtral, Whisper та API великих хмарних провайдерів, відсутніх у внутрішньому порівнянні.

Stephane Nachez

Редакція ActuIA — новини, дані й аналітика про штучний інтелект для керівників.

Solaria-3: Gladia лідирує в production-аудіо, за власними вимірюваннями

Таблиця, яку можна читати в обидва боки

Що цей trade-off означає для ринку STT з погляду B2B-замовника

Machine unlearning: Google Research підтвердила аудит-тест, але поки не для LLMs

Starbucks вилучає інструмент комп'ютерного зору NomadGo через дев'ять місяців у 11 000 магазинах

Cigref: 140 млрд євро додаткових витрат на хмарні технології в Європі, ІІ як пакетна пропозиція на другому місці