La source d'information de référence
sur l'intelligence artificielle

Outils et technos

Solaria-3 : Gladia en tête sur l'audio de production, selon ses propres mesures

STStephane Nachez · ·4 min
Solaria-3 : Gladia en tête sur l'audio de production, selon ses propres mesures
Sommaire

Le marché de la transcription par API bascule depuis 2024-2025 vers l'audio de production - réunions bruitées, accents, téléphonie - et Solaria-3, publié par Gladia le 10 juin 2026, ratifie ce déplacement par un choix délibéré: le modèle progresse sur l'audio réel mais recule de 36 % sur Multilingual LibriSpeech face à Solaria-1. La jeune pousse parisienne revendique la première place sur Earnings22 Cleaned AA avec 6,4 % WER, selon ses propres mesures.

Ce trade-off est assumé: Gladia maintient Solaria-1 en parallèle pour les cas d'usage multilingues étendus. Le bénéfice de Solaria-3 n'est pas uniforme par langue selon Gladia (anglais −26 %, allemand −3 % sur son audio interne).

Un tableau qui se lit dans les deux sens

Les chiffres publiés par Gladia dessinent une bascule de spécialisation. Le modèle progresse sur les conditions d'audio que rencontre un centre d'appels - téléphonie 8 kHz, réunions multi-locuteurs, accents non natifs - et recule sur les conditions de laboratoire où Solaria-1 conserve l'avantage. Le tableau ci-dessous reprend les mesures publiées par Gladia le 10 juin 2026 (WER = word error rate, taux d'erreur sur les mots transcrits).

Benchmark Condition d'audio Solaria-3 WER Référence Source
Earnings22 Cleaned AA discours financier / professionnel 6,4 % AssemblyAI Universal-2: 6,9 % Gladia
Switchboard téléphonie dégradée 8 kHz 33,9 % ElevenLabs: 55,2 % Gladia
Audio bruité bruit de fond 1,4 % Mistral Voxtral: 1,0 % Gladia
Multilingual LibriSpeech audio lu en studio, multilingue 8,0 % Solaria-1: 5,9 % (+36 %) Gladia
VoxPopuli Cleaned AA audio institutionnel / parlementaire 2,9 % Solaria-1: 2,2 % (+32 %) Gladia

Selon Gladia, Solaria-3 devance sur Earnings22 AssemblyAI Universal-2 de 0,5 point (6,4 % contre 6,9 %) - un écart à interpréter dans la marge de bruit typique des mesures WER. Sur Switchboard, l'éditeur présente son modèle comme le seul du comparatif maison à passer sous 35 %. Le périmètre se resserre toutefois: Solaria-3 est optimisé pour cinq langues européennes (anglais, français, allemand, espagnol, italien), quand Solaria-1 reste annoncé par Gladia à plus de 100 langues, dont 42 exclusives. Tous ces chiffres reposent sur le dataset interne de Gladia, propriétaire et annoté en interne - il n'est pas public, ce qui rend la réplication par un tiers impossible en l'état.

Ce que ce trade-off dit du marché STT pour un acheteur B2B

Earnings22, Switchboard et VoxPopuli capturent ce qu'un acheteur B2B rencontre au quotidien: conférences de résultats, conversations téléphoniques 8 kHz, discours parlementaires accentués. Le secteur se redéfinit autour de ce second type depuis 2024-2025, et Solaria-3 ratifie cette bascule pour Gladia, la jeune pousse parisienne fondée en 2022 et financée par une levée de 16 M$ en Series A en octobre 2024.

Le concurrent européen le plus proche est Voxtral de Mistral AI, publié en juillet 2024 puis itéré jusqu'à Voxtral Transcribe 2 début 2026. Gladia choisit de ne pas l'inclure dans son tableau comparatif principal, alors même que Voxtral le devance sur l'audio bruité (1,0 % contre 1,4 % WER) dans le détail de sa propre publication. Côté conformité, Gladia annonce les certifications SOC 2 Type II, HIPAA, RGPD, ISO 27001, avec des clusters EU et US - un argument souveraineté à pondérer: il porte sur l'inférence et la donnée client, pas sur l'entraînement.

Pour un décideur qui sélectionne un fournisseur de transcription, le critère d'évaluation se déplace donc avec le marché. Un cas d'usage centré sur les réunions et les centres d'appels (proche d'Earnings22, Switchboard) appelle un test sur Solaria-3; un multilingue étendu ou un audio propre (transcription de documentaires, lecture institutionnelle) renvoie vers Solaria-1 ou un concurrent. Le point qui tranchera la revendication de tête de Gladia tient en une ligne: la publication, par un évaluateur tiers, de mesures WER sur les mêmes conditions audio - Earnings22, Switchboard, audio bruité - incluant Voxtral, Whisper et les API des grands fournisseurs cloud absents du comparatif maison.

ST
Stephane Nachez
subscriber

Rédaction ActuIA — actualités, données et analyses sur l'intelligence artificielle pour les décideurs.