Нова модель

Solaria-3: Gladia лідирує в production-аудіо, за власними вимірюваннями

STStephane Nachez · ·3 min
Solaria-3: Gladia лідирує в production-аудіо, за власними вимірюваннями
Sommaire

Ринок API-транскрипції у 2024–2025 роках зміщується в бік production-аудіо — шумних зустрічей, акцентів, телефонії — і Solaria-3, опублікована Gladia 10 червня 2026 року, підкріплює цей зсув свідомим компромісом: модель покращує результати на реальному аудіо, але просідає на 36 % на Multilingual LibriSpeech порівняно з Solaria-1. Паризький стартап заявляє про перше місце на Earnings22 Cleaned AA з WER 6,4 % — за власними вимірюваннями.

Цей trade-off є усвідомленим: Gladia паралельно зберігає Solaria-1 для широких багатомовних сценаріїв. Перевага Solaria-3, за даними Gladia, не є однаковою для всіх мов (англійська −26 %, німецька −3 % на внутрішньому аудіо компанії).

Таблиця, яку можна читати в обидва боки

Опубліковані Gladia цифри демонструють зміну спеціалізації. Модель покращує показники на тих типах аудіо, з якими стикається кол-центр — телефонія 8 кГц, багатоголосі зустрічі, ненативні акценти — і поступається в лабораторних умовах, де Solaria-1 зберігає перевагу. Наведена нижче таблиця відтворює вимірювання, опубліковані Gladia 10 червня 2026 року (WER = word error rate, частка помилок у словах під час транскрипції).

Benchmark Умови аудіо Solaria-3 WER Референс Джерело
Earnings22 Cleaned AA фінансове / професійне мовлення 6,4 % AssemblyAI Universal-2: 6,9 % Gladia
Switchboard деградована телефонія 8 кГц 33,9 % ElevenLabs: 55,2 % Gladia
Шумне аудіо фоновий шум 1,4 % Mistral Voxtral: 1,0 % Gladia
Multilingual LibriSpeech студійне читане аудіо, багатомовне 8,0 % Solaria-1: 5,9 % (+36 %) Gladia
VoxPopuli Cleaned AA інституційне / парламентське аудіо 2,9 % Solaria-1: 2,2 % (+32 %) Gladia

За даними Gladia, Solaria-3 випереджає AssemblyAI Universal-2 на Earnings22 на 0,5 пункту (6,4 % проти 6,9 %) — різниця, яку слід інтерпретувати в межах типової похибки WER. На Switchboard видавець представляє свою модель як єдину в домашньому порівнянні, що опускається нижче 35 %. Водночас рамки застосування звужуються: Solaria-3 оптимізована для п’яти європейських мов (англійська, французька, німецька, іспанська, італійська), тоді як Solaria-1, за заявою Gladia, підтримує понад 100 мов, зокрема 42 ексклюзивні. Усі ці цифри базуються на внутрішньому датасеті Gladia, який є власницьким і анотований всередині компанії — він не є публічним, тож незалежне відтворення результатів наразі неможливе.

Що цей trade-off означає для ринку STT з погляду B2B-замовника

Earnings22, Switchboard і VoxPopuli відображають те, з чим B2B-замовник стикається щодня: конференц-дзвінки, телефонні розмови 8 кГц, парламентські виступи з акцентами. З 2024–2025 років галузь дедалі більше переорієнтовується саме на цей другий тип сценаріїв, і Solaria-3 для Gladia, паризького стартапу, заснованого у 2022 році та профінансованого раундом Series A на 16 млн $ у жовтні 2024 року, лише підтверджує цей зсув.

Найближчим європейським конкурентом є Voxtral від Mistral AI, опублікований у липні 2024 року та доопрацьований до Voxtral Transcribe 2 на початку 2026 року. Gladia вирішує не включати його до основної порівняльної таблиці, хоча у власній публікації компанії Voxtral випереджає Solaria-3 на шумному аудіо (1,0 % проти 1,4 % WER). З точки зору комплаєнсу Gladia заявляє про сертифікації SOC 2 Type II, HIPAA, GDPR, ISO 27001, а також про EU- і US-кластери — аргумент про суверенність, який варто оцінювати обережно: він стосується інференсу та клієнтських даних, а не навчання моделі.

Для керівника, який обирає постачальника транскрипції, критерій оцінювання, таким чином, зміщується разом із ринком. Сценарій, орієнтований на зустрічі та кол-центри (близький до Earnings22 і Switchboard), потребує тесту на Solaria-3; широкомовний багатомовний кейс або чисте аудіо (транскрипція документальних матеріалів, інституційне читання) радше веде до Solaria-1 або до конкурента. Питання, яке остаточно перевірить заяву Gladia про лідерство, зводиться до одного рядка: публікація незалежним оцінювачем WER-метрик на тих самих типах аудіо — Earnings22, Switchboard, шумне аудіо — включно з Voxtral, Whisper та API великих хмарних провайдерів, відсутніх у внутрішньому порівнянні.

ST
Stephane Nachez
subscriber

Rédaction ActuIA — actualités, données et analyses sur l'intelligence artificielle pour les décideurs.