O mercado de transcrição via API vem migrando, desde 2024-2025, para o áudio de produção - reuniões ruidosas, sotaques, telefonia - e Solaria-3, lançado pela Gladia em 10 de junho de 2026, confirma essa mudança por meio de uma escolha deliberada: o modelo avança em áudio real, mas recua 36 % no Multilingual LibriSpeech em relação ao Solaria-1. A startup parisiense reivindica o primeiro lugar no Earnings22 Cleaned AA com 6,4 % de WER, segundo suas próprias medições.
Esse trade-off é assumido: a Gladia mantém o Solaria-1 em paralelo para casos de uso multilíngues mais amplos. O ganho do Solaria-3 não é uniforme por idioma, segundo a Gladia (inglês -26 %, alemão -3 % em seu áudio interno).
Um quadro que pode ser lido nos dois sentidos
Os números publicados pela Gladia desenham uma mudança de especialização. O modelo melhora nas condições de áudio encontradas por um call center - telefonia 8 kHz, reuniões com múltiplos interlocutores, sotaques não nativos - e recua nas condições de laboratório em que o Solaria-1 mantém a vantagem. A tabela abaixo retoma as medições publicadas pela Gladia em 10 de junho de 2026 (WER = word error rate, taxa de erro nas palavras transcritas).
| Benchmark | Condição de áudio | Solaria-3 WER | Referência | Fonte |
|---|---|---|---|---|
| Earnings22 Cleaned AA | discurso financeiro / profissional | 6,4 % | AssemblyAI Universal-2: 6,9 % | Gladia |
| Switchboard | telefonia degradada 8 kHz | 33,9 % | ElevenLabs: 55,2 % | Gladia |
| Áudio ruidoso | ruído de fundo | 1,4 % | Mistral Voxtral: 1,0 % | Gladia |
| Multilingual LibriSpeech | áudio lido em estúdio, multilíngue | 8,0 % | Solaria-1: 5,9 % (+36 %) | Gladia |
| VoxPopuli Cleaned AA | áudio institucional / parlamentar | 2,9 % | Solaria-1: 2,2 % (+32 %) | Gladia |
Segundo a Gladia, o Solaria-3 supera o AssemblyAI Universal-2 no Earnings22 por 0,5 ponto (6,4 % contra 6,9 %) - uma diferença que deve ser interpretada dentro da margem de ruído típica das medições de WER. No Switchboard, a editora apresenta seu modelo como o único, em seu comparativo interno, a ficar abaixo de 35 %. O escopo, porém, é mais restrito: o Solaria-3 é otimizado para cinco idiomas europeus (inglês, francês, alemão, espanhol, italiano), enquanto o Solaria-1 segue anunciado pela Gladia para mais de 100 idiomas, incluindo 42 exclusivos. Todos esses números se baseiam no dataset interno da Gladia, proprietário e anotado internamente - ele não é público, o que torna impossível a replicação por terceiros, no estado atual.
O que esse trade-off diz sobre o mercado de STT para um comprador B2B
Earnings22, Switchboard e VoxPopuli capturam o que um comprador B2B encontra no dia a dia: conferências de resultados, conversas telefônicas em 8 kHz, discursos parlamentares com sotaque. O setor vem se redefinindo em torno desse segundo tipo desde 2024-2025, e o Solaria-3 confirma essa virada para a Gladia, a startup parisiense fundada em 2022 e financiada por uma rodada Series A de 16 M$ em outubro de 2024.
O concorrente europeu mais próximo é Voxtral da Mistral AI, lançado em julho de 2024 e depois iterado até o Voxtral Transcribe 2 no início de 2026. A Gladia opta por não incluí-lo em sua tabela comparativa principal, embora o Voxtral supere o modelo em áudio ruidoso (1,0 % contra 1,4 % de WER) no detalhe de sua própria publicação. Em termos de conformidade, a Gladia anuncia as certificações SOC 2 Type II, HIPAA, GDPR, ISO 27001, com clusters na UE e nos EUA - um argumento de soberania que precisa ser relativizado: ele se refere à inferência e aos dados do cliente, não ao treinamento.
Para um decisor que seleciona um fornecedor de transcrição, o critério de avaliação, portanto, se desloca junto com o mercado. Um caso de uso centrado em reuniões e call centers (próximo de Earnings22, Switchboard) pede um teste com o Solaria-3; um cenário multilíngue mais amplo ou um áudio limpo (transcrição de documentários, leitura institucional) aponta para o Solaria-1 ou para um concorrente. O ponto que poderá confirmar a liderança reivindicada pela Gladia cabe em uma linha: a publicação, por um avaliador terceiro, de medições de WER nas mesmas condições de áudio - Earnings22, Switchboard, áudio ruidoso - incluindo Voxtral, Whisper e as APIs dos grandes fornecedores de nuvem ausentes do comparativo interno.
