Solaria-3：根据 Gladia 自身测量，Gladia 在生产级音频上领先

自 2024-2025 年以来，API 转写市场正从实验室场景转向生产级音频——嘈杂会议、口音、电话语音——而 Gladia 于 2026 年 6 月 10 日发布的 Solaria-3 通过一项有意为之的取舍确认了这一转向：该模型在真实音频上表现提升，但在 Multilingual LibriSpeech 上相较 Solaria-1 下降了 36%。这家巴黎初创公司根据其自身测量声称，在 Earnings22 Cleaned AA 上以 6.4% 的 WER 位居第一。

这一取舍是明确的：Gladia 仍将 Solaria-1 与 Solaria-3 并行保留，用于更广泛的多语言场景。根据 Gladia 的说法，Solaria-3 的收益并非在所有语言上都一致（其内部音频测试中，英语 -26%，德语 -3%）。

一张可以从两个方向解读的表

Gladia 公布的数据勾勒出一种专业化转向。该模型在呼叫中心常见的音频条件下表现更好——8 kHz 电话语音、多说话人会议、非母语口音——但在实验室条件下回落，而 Solaria-1 仍保持优势。下表整理了 Gladia 于 2026 年 6 月 10 日发布的测量结果（WER = word error rate，词错误率）。

Benchmark	音频条件	Solaria-3 WER	参考	来源
Earnings22 Cleaned AA	金融 / 商务演讲	6.4%	AssemblyAI Universal-2：6.9%	Gladia
Switchboard	劣化的 8 kHz 电话语音	33.9%	ElevenLabs：55.2%	Gladia
Audio bruité	背景噪声	1.4%	Mistral Voxtral：1.0%	Gladia
Multilingual LibriSpeech	录音棚朗读音频，多语言	8.0%	Solaria-1：5.9%（+36%）	Gladia
VoxPopuli Cleaned AA	机构 / 议会类音频	2.9%	Solaria-1：2.2%（+32%）	Gladia

根据 Gladia 的说法，Solaria-3 在 Earnings22 上领先 AssemblyAI Universal-2 0.5 个百分点（6.4% 对 6.9%）——这一差距需要结合 WER 测量通常的噪声范围来解读。在 Switchboard 上，该厂商将其模型描述为自家对比中唯一低于 35% 的模型。不过其适用范围也更窄：Solaria-3 针对五种欧洲语言进行了优化（英语、法语、德语、西班牙语、意大利语），而 Gladia 对 Solaria-1 的宣称覆盖 100 多种语言，其中 42 种为独占语言。上述所有数字均基于 Gladia 的内部数据集，且该数据集由其自有并内部标注——并未公开，因此第三方目前无法复现。

这一取舍对 B2B 买家的 STT 市场意味着什么

Earnings22、Switchboard 和 VoxPopuli 捕捉的是 B2B 买家日常会遇到的场景：财报电话会议、8 kHz 电话对话、带口音的议会发言。自 2024-2025 年以来，行业正围绕第二类场景重新定义，而 Solaria-3 也为 Gladia 这一转向提供了印证。Gladia 是一家成立于 2022 年的巴黎初创公司，并在 2024 年 10 月完成 1600 万美元 Series A 融资。

欧洲最接近的竞争对手是 Mistral AI 的 Voxtral，其于 2024 年 7 月发布，并在 2026 年初迭代至 Voxtral Transcribe 2。Gladia 选择不将其纳入主要对比表，尽管在其自身发布的细节中，Voxtral 在噪声音频上优于 Solaria-3（1.0% 对 1.4% WER）。在合规方面，Gladia 宣称已获得 SOC 2 Type II、HIPAA、GDPR、ISO 27001 认证，并在欧盟和美国部署集群——这是一个需要谨慎权衡的主权叙事：它涉及推理和客户数据，而非训练过程。

对于选择转写供应商的决策者而言，评估标准也随市场而变化。以会议和呼叫中心为核心的用例（接近 Earnings22、Switchboard）应优先测试 Solaria-3；而更广泛的多语言需求或更干净的音频（纪录片转写、机构朗读）则更适合 Solaria-1 或其他竞争方案。最终决定 Gladia 是否真正在榜首的关键，将是第三方评估机构在相同音频条件下发布 WER 测量结果——包括 Earnings22、Switchboard、噪声音频——并纳入 Voxtral、Whisper 以及大型云厂商的 API，这些厂商并未出现在其内部对比中。

Stephane Nachez

ActuIA 编辑部 — 面向决策者的人工智能资讯、数据与分析。

Solaria-3：根据 Gladia 自身测量，Gladia 在生产级音频上领先

一张可以从两个方向解读的表

这一取舍对 B2B 买家的 STT 市场意味着什么

同一模型，不同护栏：Claude Fable 5 与 Mythos 5 的发布揭示了什么

Starbucks在11,000家门店中试用九个月后撤下NomadGo视觉工具

Cigref：欧洲云计算超支1400亿欧元，人工智能捆绑销售成第二大原因