Solaria-3: Gladia na liderança em áudio de produção, segundo suas próprias medições

O mercado de transcrição via API vem migrando, desde 2024-2025, para o áudio de produção - reuniões ruidosas, sotaques, telefonia - e Solaria-3, lançado pela Gladia em 10 de junho de 2026, confirma essa mudança por meio de uma escolha deliberada: o modelo avança em áudio real, mas recua 36 % no Multilingual LibriSpeech em relação ao Solaria-1. A startup parisiense reivindica o primeiro lugar no Earnings22 Cleaned AA com 6,4 % de WER, segundo suas próprias medições.

Esse trade-off é assumido: a Gladia mantém o Solaria-1 em paralelo para casos de uso multilíngues mais amplos. O ganho do Solaria-3 não é uniforme por idioma, segundo a Gladia (inglês -26 %, alemão -3 % em seu áudio interno).

Um quadro que pode ser lido nos dois sentidos

Os números publicados pela Gladia desenham uma mudança de especialização. O modelo melhora nas condições de áudio encontradas por um call center - telefonia 8 kHz, reuniões com múltiplos interlocutores, sotaques não nativos - e recua nas condições de laboratório em que o Solaria-1 mantém a vantagem. A tabela abaixo retoma as medições publicadas pela Gladia em 10 de junho de 2026 (WER = word error rate, taxa de erro nas palavras transcritas).

Benchmark	Condição de áudio	Solaria-3 WER	Referência	Fonte
Earnings22 Cleaned AA	discurso financeiro / profissional	6,4 %	AssemblyAI Universal-2: 6,9 %	Gladia
Switchboard	telefonia degradada 8 kHz	33,9 %	ElevenLabs: 55,2 %	Gladia
Áudio ruidoso	ruído de fundo	1,4 %	Mistral Voxtral: 1,0 %	Gladia
Multilingual LibriSpeech	áudio lido em estúdio, multilíngue	8,0 %	Solaria-1: 5,9 % (+36 %)	Gladia
VoxPopuli Cleaned AA	áudio institucional / parlamentar	2,9 %	Solaria-1: 2,2 % (+32 %)	Gladia

Segundo a Gladia, o Solaria-3 supera o AssemblyAI Universal-2 no Earnings22 por 0,5 ponto (6,4 % contra 6,9 %) - uma diferença que deve ser interpretada dentro da margem de ruído típica das medições de WER. No Switchboard, a editora apresenta seu modelo como o único, em seu comparativo interno, a ficar abaixo de 35 %. O escopo, porém, é mais restrito: o Solaria-3 é otimizado para cinco idiomas europeus (inglês, francês, alemão, espanhol, italiano), enquanto o Solaria-1 segue anunciado pela Gladia para mais de 100 idiomas, incluindo 42 exclusivos. Todos esses números se baseiam no dataset interno da Gladia, proprietário e anotado internamente - ele não é público, o que torna impossível a replicação por terceiros, no estado atual.

O que esse trade-off diz sobre o mercado de STT para um comprador B2B

Earnings22, Switchboard e VoxPopuli capturam o que um comprador B2B encontra no dia a dia: conferências de resultados, conversas telefônicas em 8 kHz, discursos parlamentares com sotaque. O setor vem se redefinindo em torno desse segundo tipo desde 2024-2025, e o Solaria-3 confirma essa virada para a Gladia, a startup parisiense fundada em 2022 e financiada por uma rodada Series A de 16 M$ em outubro de 2024.

O concorrente europeu mais próximo é Voxtral da Mistral AI, lançado em julho de 2024 e depois iterado até o Voxtral Transcribe 2 no início de 2026. A Gladia opta por não incluí-lo em sua tabela comparativa principal, embora o Voxtral supere o modelo em áudio ruidoso (1,0 % contra 1,4 % de WER) no detalhe de sua própria publicação. Em termos de conformidade, a Gladia anuncia as certificações SOC 2 Type II, HIPAA, GDPR, ISO 27001, com clusters na UE e nos EUA - um argumento de soberania que precisa ser relativizado: ele se refere à inferência e aos dados do cliente, não ao treinamento.

Para um decisor que seleciona um fornecedor de transcrição, o critério de avaliação, portanto, se desloca junto com o mercado. Um caso de uso centrado em reuniões e call centers (próximo de Earnings22, Switchboard) pede um teste com o Solaria-3; um cenário multilíngue mais amplo ou um áudio limpo (transcrição de documentários, leitura institucional) aponta para o Solaria-1 ou para um concorrente. O ponto que poderá confirmar a liderança reivindicada pela Gladia cabe em uma linha: a publicação, por um avaliador terceiro, de medições de WER nas mesmas condições de áudio - Earnings22, Switchboard, áudio ruidoso - incluindo Voxtral, Whisper e as APIs dos grandes fornecedores de nuvem ausentes do comparativo interno.

Stephane Nachez

Redação ActuIA — notícias, dados e análises sobre inteligência artificial para os decisores.

Solaria-3: Gladia na liderança em áudio de produção, segundo suas próprias medições

Um quadro que pode ser lido nos dois sentidos

O que esse trade-off diz sobre o mercado de STT para um comprador B2B

Por que o rumor de um cloud da Meta está derrubando os neoclouds

Starbucks remove a ferramenta de visão computacional NomadGo após nove meses em 11.000 lojas

Cigref: 140 mil milhões de euros de custos adicionais na nuvem na Europa, IA em pacote como segunda causa