新模型

Solaria-3:根据 Gladia 自身测量,Gladia 在生产级音频上领先

Gladia 发布 Solaria-3,并称其在真实生产级音频场景中领先:在嘈杂会议、电话语音和多说话人环境下表现更强,但在 Multilingual LibriSpeech 等实验室基准上不如 Solaria-1。公司将 Solaria-3 定位为面向五种欧洲语言的生产级模型,同时保留 Solaria-1 覆盖更广泛的多语言需求。

STStephane Nachez · ·2 min
Solaria-3:根据 Gladia 自身测量,Gladia 在生产级音频上领先
Sommaire

自 2024-2025 年以来,API 转写市场正从实验室场景转向生产级音频——嘈杂会议、口音、电话语音——而 Gladia 于 2026 年 6 月 10 日发布的 Solaria-3 通过一项有意为之的取舍确认了这一转向:该模型在真实音频上表现提升,但在 Multilingual LibriSpeech 上相较 Solaria-1 下降了 36%。这家巴黎初创公司根据其自身测量声称,在 Earnings22 Cleaned AA 上以 6.4% 的 WER 位居第一。

这一取舍是明确的:Gladia 仍将 Solaria-1 与 Solaria-3 并行保留,用于更广泛的多语言场景。根据 Gladia 的说法,Solaria-3 的收益并非在所有语言上都一致(其内部音频测试中,英语 -26%,德语 -3%)。

一张可以从两个方向解读的表

Gladia 公布的数据勾勒出一种专业化转向。该模型在呼叫中心常见的音频条件下表现更好——8 kHz 电话语音、多说话人会议、非母语口音——但在实验室条件下回落,而 Solaria-1 仍保持优势。下表整理了 Gladia 于 2026 年 6 月 10 日发布的测量结果(WER = word error rate,词错误率)。

Benchmark 音频条件 Solaria-3 WER 参考 来源
Earnings22 Cleaned AA 金融 / 商务演讲 6.4% AssemblyAI Universal-2:6.9% Gladia
Switchboard 劣化的 8 kHz 电话语音 33.9% ElevenLabs:55.2% Gladia
Audio bruité 背景噪声 1.4% Mistral Voxtral:1.0% Gladia
Multilingual LibriSpeech 录音棚朗读音频,多语言 8.0% Solaria-1:5.9%(+36%) Gladia
VoxPopuli Cleaned AA 机构 / 议会类音频 2.9% Solaria-1:2.2%(+32%) Gladia

根据 Gladia 的说法,Solaria-3 在 Earnings22 上领先 AssemblyAI Universal-2 0.5 个百分点(6.4% 对 6.9%)——这一差距需要结合 WER 测量通常的噪声范围来解读。在 Switchboard 上,该厂商将其模型描述为自家对比中唯一低于 35% 的模型。不过其适用范围也更窄:Solaria-3 针对五种欧洲语言进行了优化(英语、法语、德语、西班牙语、意大利语),而 Gladia 对 Solaria-1 的宣称覆盖 100 多种语言,其中 42 种为独占语言。上述所有数字均基于 Gladia 的内部数据集,且该数据集由其自有并内部标注——并未公开,因此第三方目前无法复现。

这一取舍对 B2B 买家的 STT 市场意味着什么

Earnings22、Switchboard 和 VoxPopuli 捕捉的是 B2B 买家日常会遇到的场景:财报电话会议、8 kHz 电话对话、带口音的议会发言。自 2024-2025 年以来,行业正围绕第二类场景重新定义,而 Solaria-3 也为 Gladia 这一转向提供了印证。Gladia 是一家成立于 2022 年的巴黎初创公司,并在 2024 年 10 月完成 1600 万美元 Series A 融资。

欧洲最接近的竞争对手是 Mistral AI 的 Voxtral,其于 2024 年 7 月发布,并在 2026 年初迭代至 Voxtral Transcribe 2。Gladia 选择不将其纳入主要对比表,尽管在其自身发布的细节中,Voxtral 在噪声音频上优于 Solaria-3(1.0% 对 1.4% WER)。在合规方面,Gladia 宣称已获得 SOC 2 Type II、HIPAA、GDPR、ISO 27001 认证,并在欧盟和美国部署集群——这是一个需要谨慎权衡的主权叙事:它涉及推理和客户数据,而非训练过程。

对于选择转写供应商的决策者而言,评估标准也随市场而变化。以会议和呼叫中心为核心的用例(接近 Earnings22、Switchboard)应优先测试 Solaria-3;而更广泛的多语言需求或更干净的音频(纪录片转写、机构朗读)则更适合 Solaria-1 或其他竞争方案。最终决定 Gladia 是否真正在榜首的关键,将是第三方评估机构在相同音频条件下发布 WER 测量结果——包括 Earnings22、Switchboard、噪声音频——并纳入 Voxtral、Whisper 以及大型云厂商的 API,这些厂商并未出现在其内部对比中。

ST
Stephane Nachez
subscriber

Rédaction ActuIA — actualités, données et analyses sur l'intelligence artificielle pour les décideurs.