Der API-Markt für Transkription verschiebt sich seit 2024-2025 hin zu Produktionsaudio – verrauschte Meetings, Akzente, Telefonie – und Solaria-3, von Gladia am 10. Juni 2026 veröffentlicht, bestätigt diese Verschiebung mit einer bewussten Entscheidung: Das Modell legt bei realem Audio zu, fällt aber auf Multilingual LibriSpeech gegenüber Solaria-1 um 36 % zurück. Das Pariser Start-up beansprucht nach eigenen Messungen den ersten Platz bei Earnings22 Cleaned AA mit 6,4 % WER.
Dieser Kompromiss ist bewusst gewählt: Gladia hält Solaria-1 parallel für umfangreiche mehrsprachige Anwendungsfälle vor. Der Vorteil von Solaria-3 ist laut Gladia nicht in jeder Sprache gleich ausgeprägt (Englisch −26 %, Deutsch −3 % auf dem internen Audio).
Eine Tabelle, die in beide Richtungen gelesen werden kann
Die von Gladia veröffentlichten Zahlen zeichnen eine Verschiebung der Spezialisierung nach. Das Modell verbessert sich bei den Audio-Bedingungen, wie sie in einem Callcenter vorkommen – 8-kHz-Telefonie, Mehrsprecher-Meetings, nicht-muttersprachliche Akzente – und verliert bei Laborbedingungen, unter denen Solaria-1 weiterhin im Vorteil bleibt. Die folgende Tabelle fasst die von Gladia am 10. Juni 2026 veröffentlichten Messwerte zusammen (WER = word error rate, Wortfehlerrate).
| Benchmark | Audio-Bedingung | Solaria-3 WER | Referenz | Quelle |
|---|---|---|---|---|
| Earnings22 Cleaned AA | finanzielle / berufliche Sprache | 6,4 % | AssemblyAI Universal-2: 6,9 % | Gladia |
| Switchboard | degradierte 8-kHz-Telefonie | 33,9 % | ElevenLabs: 55,2 % | Gladia |
| Audio bruité | Hintergrundgeräusche | 1,4 % | Mistral Voxtral: 1,0 % | Gladia |
| Multilingual LibriSpeech | im Studio gelesenes, mehrsprachiges Audio | 8,0 % | Solaria-1: 5,9 % (+36 %) | Gladia |
| VoxPopuli Cleaned AA | institutionelles / parlamentarisches Audio | 2,9 % | Solaria-1: 2,2 % (+32 %) | Gladia |
Laut Gladia liegt Solaria-3 bei Earnings22 vor AssemblyAI Universal-2 um 0,5 Punkte (6,4 % gegenüber 6,9 %) – ein Abstand, der innerhalb der typischen Messungenauigkeit von WER zu interpretieren ist. Bei Switchboard präsentiert der Anbieter sein Modell als das einzige im hauseigenen Vergleich, das unter 35 % bleibt. Der Anwendungsbereich ist jedoch enger: Solaria-3 ist für fünf europäische Sprachen optimiert (Englisch, Französisch, Deutsch, Spanisch, Italienisch), während Solaria-1 laut Gladia weiterhin mehr als 100 Sprachen abdeckt, davon 42 exklusiv. Alle diese Zahlen beruhen auf dem internen Datensatz von Gladia, der proprietär und intern annotiert ist – er ist nicht öffentlich, wodurch eine Replikation durch Dritte derzeit unmöglich ist.
Was dieser Kompromiss für den STT-Markt aus Sicht eines B2B-Käufers bedeutet
Earnings22, Switchboard und VoxPopuli erfassen genau das, womit ein B2B-Käufer im Alltag konfrontiert ist: Ergebnispräsentationen, 8-kHz-Telefongespräche, akzentbehaftete Parlamentsreden. Der Sektor definiert sich seit 2024-2025 zunehmend über diesen zweiten Typ, und Solaria-3 bestätigt diese Verschiebung für Gladia, das 2022 gegründete Pariser Start-up, das im Oktober 2024 eine Series-A-Finanzierung über 16 Mio. $ erhalten hat.
Der nächstgelegene europäische Konkurrent ist Voxtral von Mistral AI, veröffentlicht im Juli 2024 und bis Anfang 2026 zu Voxtral Transcribe 2 weiterentwickelt. Gladia entscheidet sich, ihn nicht in seine Hauptvergleichstabelle aufzunehmen, obwohl Voxtral im Detail der eigenen Veröffentlichung beim verrauschten Audio besser abschneidet (1,0 % gegenüber 1,4 % WER). Auf der Compliance-Seite verweist Gladia auf die Zertifizierungen SOC 2 Type II, HIPAA, DSGVO, ISO 27001 sowie EU- und US-Cluster – ein Souveränitätsargument, das jedoch zu relativieren ist: Es betrifft Inferenz und Kundendaten, nicht das Training.
Für einen Entscheider, der einen Transkriptionsanbieter auswählt, verschiebt sich das Bewertungskriterium also mit dem Markt. Ein Anwendungsfall mit Fokus auf Meetings und Callcenter (nahe an Earnings22, Switchboard) verlangt einen Test mit Solaria-3; ein umfangreicher Mehrspracheneinsatz oder sauberes Audio (Dokumentartranskription, institutionelles Vorlesen) verweist eher auf Solaria-1 oder einen Wettbewerber. Der Punkt, der Gladia den Führungsanspruch letztlich bestätigen oder widerlegen wird, lässt sich in einem Satz zusammenfassen: die Veröffentlichung von WER-Messungen unter denselben Audio-Bedingungen durch einen unabhängigen Dritten – Earnings22, Switchboard, verrauschtes Audio – einschließlich Voxtral, Whisper und der APIs der großen Cloud-Anbieter, die im hauseigenen Vergleich fehlen.
