APIベースの文字起こし市場は2024〜2025年にかけて、会議の雑音、訛り、電話音声といった「プロダクション音声」へと軸足を移しつつある。Gladiaが2026年6月10日に公開したSolaria-3は、この変化を意図的に裏づけるモデルだ。実音声では性能を伸ばす一方、Multilingual LibriSpeechではSolaria-1に対して36%低下している。パリ拠点の同社は、自社計測によればEarnings22 Cleaned AAでWER 6.4%を記録し、首位に立ったと主張している。
このトレードオフは織り込み済みだ。Gladiaは、多言語の幅広い用途向けにSolaria-1を並行して維持している。なお、Solaria-3の改善効果は言語ごとに一様ではないとGladiaは説明しており、自社内部音声では英語が-26%、ドイツ語が-3%となっている。
両面から読める表
Gladiaが公表した数値は、専門特化の方向転換を示している。モデルは、コールセンターで遭遇するような音声条件――8kHzの電話音声、複数話者の会議、非ネイティブのアクセント――では改善している一方で、Solaria-1が優位を保つラボ条件では後退している。以下の表は、Gladiaが2026年6月10日に公表した計測結果をまとめたものだ(WER = word error rate、書き起こし単語の誤り率)。
| ベンチマーク | 音声条件 | Solaria-3 WER | 比較対象 | 出典 |
|---|---|---|---|---|
| Earnings22 Cleaned AA | 金融・ビジネススピーチ | 6.4% | AssemblyAI Universal-2: 6.9% | Gladia |
| Switchboard | 劣化した8kHz電話音声 | 33.9% | ElevenLabs: 55.2% | Gladia |
| ノイズ音声 | 背景雑音 | 1.4% | Mistral Voxtral: 1.0% | Gladia |
| Multilingual LibriSpeech | スタジオ録音の読み上げ、多言語 | 8.0% | Solaria-1: 5.9%(+36%) | Gladia |
| VoxPopuli Cleaned AA | 制度・議会関連の音声 | 2.9% | Solaria-1: 2.2%(+32%) | Gladia |
Gladiaによると、Earnings22ではSolaria-3がAssemblyAI Universal-2を0.5ポイント上回る(6.4%対6.9%)。ただし、この差はWER計測における通常のばらつきの範囲内として解釈すべきだろう。Switchboardでは、同社は自社比較の中で35%を下回った唯一のモデルとしてSolaria-3を位置づけている。ただし、対象範囲は狭まっている。Solaria-3は5つの欧州言語(英語、フランス語、ドイツ語、スペイン語、イタリア語)に最適化されているのに対し、Solaria-1は100以上の言語に対応し、そのうち42言語は独自対応とGladiaは説明している。これらの数値はすべて、Gladiaが内部で所有・アノテーションした独自データセットに基づいている。公開データではないため、現時点では第三者による再現は不可能だ。
このトレードオフが、B2B買い手にとってのSTT市場をどう示すか
Earnings22、Switchboard、VoxPopuliは、B2Bの購買担当者が日常的に直面する音声条件を捉えている。たとえば、決算説明会、8kHzの電話会話、訛りのある議会演説などだ。2024〜2025年以降、業界はこの後者のタイプを中心に再定義されつつあり、Solaria-3は、2022年創業で2024年10月にSeries Aで1,600万ドルを調達したパリの新興企業Gladiaにとって、その流れを裏づける存在となっている。
欧州の最も近い競合はMistral AIのVoxtralだ。これは2024年7月に公開され、2026年初頭にVoxtral Transcribe 2まで改良されている。Gladiaは主比較表にこれを含めていないが、自社公開の詳細では、ノイズ音声においてVoxtralが1.0%でSolaria-3の1.4%を上回っている。コンプライアンス面では、GladiaはSOC 2 Type II、HIPAA、GDPR、ISO 27001の認証と、EUおよびUSのクラスタを掲げている。もっとも、これは主権性の論点としては慎重に見る必要がある。対象は推論処理と顧客データであり、学習そのものではないからだ。
文字起こしベンダーを選定する意思決定者にとって、評価軸は市場の変化に合わせて移っている。会議やコールセンターを中心とする用途(Earnings22やSwitchboardに近いケース)ならSolaria-3を試すべきだろう。一方で、広範な多言語対応やクリーンな音声(ドキュメンタリーの書き起こし、制度文書の読み上げなど)であれば、Solaria-1や他の競合に目を向けることになる。Gladiaの「首位」主張を最終的に左右するのは、第三者評価機関が同一の音声条件――Earnings22、Switchboard、ノイズ音声――でWERを計測し、Voxtral、Whisper、そして主要クラウド各社のAPIも含めて比較結果を公表することだろう。
