資金調達ラウンド

Solaria-3:Gladia、自社計測でプロダクション音声分野の首位を主張

GladiaのSolaria-3は、ノイズの多い会議音声や8kHz電話音声など実運用に近い条件で強みを示す一方、クリーンな多言語ベンチマークではSolaria-1に劣る。自社計測ではEarnings22 Cleaned AAでWER 6.4%を記録し首位を主張するが、比較は内部データに基づいており、第三者による再現はまだできない。

STStephane Nachez · ·1 min
Solaria-3:Gladia、自社計測でプロダクション音声分野の首位を主張
目次

APIベースの文字起こし市場は2024〜2025年にかけて、会議の雑音、訛り、電話音声といった「プロダクション音声」へと軸足を移しつつある。Gladiaが2026年6月10日に公開したSolaria-3は、この変化を意図的に裏づけるモデルだ。実音声では性能を伸ばす一方、Multilingual LibriSpeechではSolaria-1に対して36%低下している。パリ拠点の同社は、自社計測によればEarnings22 Cleaned AAでWER 6.4%を記録し、首位に立ったと主張している。

このトレードオフは織り込み済みだ。Gladiaは、多言語の幅広い用途向けにSolaria-1を並行して維持している。なお、Solaria-3の改善効果は言語ごとに一様ではないとGladiaは説明しており、自社内部音声では英語が-26%、ドイツ語が-3%となっている。

両面から読める表

Gladiaが公表した数値は、専門特化の方向転換を示している。モデルは、コールセンターで遭遇するような音声条件――8kHzの電話音声、複数話者の会議、非ネイティブのアクセント――では改善している一方で、Solaria-1が優位を保つラボ条件では後退している。以下の表は、Gladiaが2026年6月10日に公表した計測結果をまとめたものだ(WER = word error rate、書き起こし単語の誤り率)。

ベンチマーク 音声条件 Solaria-3 WER 比較対象 出典
Earnings22 Cleaned AA 金融・ビジネススピーチ 6.4% AssemblyAI Universal-2: 6.9% Gladia
Switchboard 劣化した8kHz電話音声 33.9% ElevenLabs: 55.2% Gladia
ノイズ音声 背景雑音 1.4% Mistral Voxtral: 1.0% Gladia
Multilingual LibriSpeech スタジオ録音の読み上げ、多言語 8.0% Solaria-1: 5.9%(+36%) Gladia
VoxPopuli Cleaned AA 制度・議会関連の音声 2.9% Solaria-1: 2.2%(+32%) Gladia

Gladiaによると、Earnings22ではSolaria-3がAssemblyAI Universal-2を0.5ポイント上回る(6.4%対6.9%)。ただし、この差はWER計測における通常のばらつきの範囲内として解釈すべきだろう。Switchboardでは、同社は自社比較の中で35%を下回った唯一のモデルとしてSolaria-3を位置づけている。ただし、対象範囲は狭まっている。Solaria-3は5つの欧州言語(英語、フランス語、ドイツ語、スペイン語、イタリア語)に最適化されているのに対し、Solaria-1は100以上の言語に対応し、そのうち42言語は独自対応とGladiaは説明している。これらの数値はすべて、Gladiaが内部で所有・アノテーションした独自データセットに基づいている。公開データではないため、現時点では第三者による再現は不可能だ。

このトレードオフが、B2B買い手にとってのSTT市場をどう示すか

Earnings22、Switchboard、VoxPopuliは、B2Bの購買担当者が日常的に直面する音声条件を捉えている。たとえば、決算説明会、8kHzの電話会話、訛りのある議会演説などだ。2024〜2025年以降、業界はこの後者のタイプを中心に再定義されつつあり、Solaria-3は、2022年創業で2024年10月にSeries Aで1,600万ドルを調達したパリの新興企業Gladiaにとって、その流れを裏づける存在となっている。

欧州の最も近い競合はMistral AIのVoxtralだ。これは2024年7月に公開され、2026年初頭にVoxtral Transcribe 2まで改良されている。Gladiaは主比較表にこれを含めていないが、自社公開の詳細では、ノイズ音声においてVoxtralが1.0%でSolaria-3の1.4%を上回っている。コンプライアンス面では、GladiaはSOC 2 Type II、HIPAA、GDPR、ISO 27001の認証と、EUおよびUSのクラスタを掲げている。もっとも、これは主権性の論点としては慎重に見る必要がある。対象は推論処理と顧客データであり、学習そのものではないからだ。

文字起こしベンダーを選定する意思決定者にとって、評価軸は市場の変化に合わせて移っている。会議やコールセンターを中心とする用途(Earnings22やSwitchboardに近いケース)ならSolaria-3を試すべきだろう。一方で、広範な多言語対応やクリーンな音声(ドキュメンタリーの書き起こし、制度文書の読み上げなど)であれば、Solaria-1や他の競合に目を向けることになる。Gladiaの「首位」主張を最終的に左右するのは、第三者評価機関が同一の音声条件――Earnings22、Switchboard、ノイズ音声――でWERを計測し、Voxtral、Whisper、そして主要クラウド各社のAPIも含めて比較結果を公表することだろう。

ST
Stephane Nachez

ActuIA編集部 — 意思決定者のためのAIニュース、データ、分析。

言及された参与者
GLGladia
ELElevenLabs
ActuIA 週刊

購読が完了しました。またのご利用を!

VT News — VivaTech