Solaria-3：Gladia、自社計測でプロダクション音声分野の首位を主張

APIベースの文字起こし市場は2024〜2025年にかけて、会議の雑音、訛り、電話音声といった「プロダクション音声」へと軸足を移しつつある。Gladiaが2026年6月10日に公開したSolaria-3は、この変化を意図的に裏づけるモデルだ。実音声では性能を伸ばす一方、Multilingual LibriSpeechではSolaria-1に対して36%低下している。パリ拠点の同社は、自社計測によればEarnings22 Cleaned AAでWER 6.4%を記録し、首位に立ったと主張している。

このトレードオフは織り込み済みだ。Gladiaは、多言語の幅広い用途向けにSolaria-1を並行して維持している。なお、Solaria-3の改善効果は言語ごとに一様ではないとGladiaは説明しており、自社内部音声では英語が-26%、ドイツ語が-3%となっている。

両面から読める表

Gladiaが公表した数値は、専門特化の方向転換を示している。モデルは、コールセンターで遭遇するような音声条件――8kHzの電話音声、複数話者の会議、非ネイティブのアクセント――では改善している一方で、Solaria-1が優位を保つラボ条件では後退している。以下の表は、Gladiaが2026年6月10日に公表した計測結果をまとめたものだ（WER = word error rate、書き起こし単語の誤り率）。

ベンチマーク	音声条件	Solaria-3 WER	比較対象	出典
Earnings22 Cleaned AA	金融・ビジネススピーチ	6.4%	AssemblyAI Universal-2: 6.9%	Gladia
Switchboard	劣化した8kHz電話音声	33.9%	ElevenLabs: 55.2%	Gladia
ノイズ音声	背景雑音	1.4%	Mistral Voxtral: 1.0%	Gladia
Multilingual LibriSpeech	スタジオ録音の読み上げ、多言語	8.0%	Solaria-1: 5.9%（+36%）	Gladia
VoxPopuli Cleaned AA	制度・議会関連の音声	2.9%	Solaria-1: 2.2%（+32%）	Gladia

Gladiaによると、Earnings22ではSolaria-3がAssemblyAI Universal-2を0.5ポイント上回る（6.4%対6.9%）。ただし、この差はWER計測における通常のばらつきの範囲内として解釈すべきだろう。Switchboardでは、同社は自社比較の中で35%を下回った唯一のモデルとしてSolaria-3を位置づけている。ただし、対象範囲は狭まっている。Solaria-3は5つの欧州言語（英語、フランス語、ドイツ語、スペイン語、イタリア語）に最適化されているのに対し、Solaria-1は100以上の言語に対応し、そのうち42言語は独自対応とGladiaは説明している。これらの数値はすべて、Gladiaが内部で所有・アノテーションした独自データセットに基づいている。公開データではないため、現時点では第三者による再現は不可能だ。

このトレードオフが、B2B買い手にとってのSTT市場をどう示すか

Earnings22、Switchboard、VoxPopuliは、B2Bの購買担当者が日常的に直面する音声条件を捉えている。たとえば、決算説明会、8kHzの電話会話、訛りのある議会演説などだ。2024〜2025年以降、業界はこの後者のタイプを中心に再定義されつつあり、Solaria-3は、2022年創業で2024年10月にSeries Aで1,600万ドルを調達したパリの新興企業Gladiaにとって、その流れを裏づける存在となっている。

欧州の最も近い競合はMistral AIのVoxtralだ。これは2024年7月に公開され、2026年初頭にVoxtral Transcribe 2まで改良されている。Gladiaは主比較表にこれを含めていないが、自社公開の詳細では、ノイズ音声においてVoxtralが1.0%でSolaria-3の1.4%を上回っている。コンプライアンス面では、GladiaはSOC 2 Type II、HIPAA、GDPR、ISO 27001の認証と、EUおよびUSのクラスタを掲げている。もっとも、これは主権性の論点としては慎重に見る必要がある。対象は推論処理と顧客データであり、学習そのものではないからだ。

文字起こしベンダーを選定する意思決定者にとって、評価軸は市場の変化に合わせて移っている。会議やコールセンターを中心とする用途（Earnings22やSwitchboardに近いケース）ならSolaria-3を試すべきだろう。一方で、広範な多言語対応やクリーンな音声（ドキュメンタリーの書き起こし、制度文書の読み上げなど）であれば、Solaria-1や他の競合に目を向けることになる。Gladiaの「首位」主張を最終的に左右するのは、第三者評価機関が同一の音声条件――Earnings22、Switchboard、ノイズ音声――でWERを計測し、Voxtral、Whisper、そして主要クラウド各社のAPIも含めて比較結果を公表することだろう。

Stephane Nachez

ActuIA編集部 — 意思決定者のためのAIニュース、データ、分析。

Solaria-3：Gladia、自社計測でプロダクション音声分野の首位を主張

両面から読める表

このトレードオフが、B2B買い手にとってのSTT市場をどう示すか

Machine unlearning：Google Research が監査テストを検証、ただし LLMs ではまだ未対応

Starbucks、11,000店舗で9か月後にコンピュータビジョンツールNomadGoを撤退

Cigref: ヨーロッパでのクラウド超過コストは1400億ユーロ、AIバンドルが2番目の要因