Chatterbox: 音声合成におけるオープンソースの突破口

Chatterbox: 音声合成におけるオープンソースの突破口

TLDR : スタートアップResemble AIは、数秒で音声を模倣し、スピーチの感情を制御し、リアルタイムでオーディオを生成できるオープンソースの音声合成ツール「Chatterbox」を発表しました。他の専有モデルと比較して、Chatterboxはリスナーに63.75%支持され、市場での魅力的な代替オプションとしての地位を確立しています。

カナダのスタートアップ、Resemble AIは最近、初のオープンソースTTS(Text-to-Speech)モデル「Chatterbox」を発表しました。MITライセンスの下で配布されているこの音声クローンモデルは、市場の専有ソリューションに対する信頼できる代替手段として位置づけられ、オープンソースモデルとしての新機能を導入しています。
Chatterboxは5億パラメータのアーキテクチャに基づいており、50万時間のクリーンデータでトレーニングされています。
モデルの主な特徴:
  • ゼロショット音声クローン:わずか数秒の参照オーディオで、Chatterboxは追加のトレーニングなしに任意の声を模倣できます;
  • 感情のコントロール:他の音声合成モデルとは異なり、Chatterboxはユーザーのニーズに応じて単調なトーンから劇的な表現力まで、スピーチの感情強度を調整できます;
  • リアルタイム音声合成:アライメントベースの生成により、モデルはリアルタイム推論時間よりも速く動作し、音声アシスタント、ビデオゲーム、およびインタラクティブアプリケーションに最適です。
  • セキュリティウォーターマーク:生成された各オーディオファイルには、生成されたコンテンツの透明性と追跡可能性を保証する知覚ウォーターマーク(PerTh Watermarker)が含まれています。
Chatterboxの使用は、CUDAと互換性のある専用Pythonライブラリ(chatterbox-tts)を介して簡素化されています。モデルはローカルまたは事前トレーニングされたモデルから初期化できます。開発者は、スタイルやターゲットボイスを調整するためにカスタム音声サンプル(オーディオプロンプト)を提供することもできます。
Resemble AIは市場の専有モデルとChatterboxを比較しました。


Chatterbox vs 競合

特徴
Chatterbox
ElevenLabs
Google TTS
Azure TTS
ライセンス
MIT(無料)
専有
専有
専有
感情のコントロール
✅ 高度
✅ 基本
❌
❌
遅延
<200 ms
~300 ms
~400秒
~500 ms
ユーザープリファレンス
63.75%
36.25%
N/A
N/A
ウォーターマーク
✅ 組み込み
❌
❌
❌
音声クローン
✅ はい
✅ はい
❌
✅ 制限あり
Podonosが実施した比較テストでは、リスナーの63.75%が市場のリーダーとされるElevenLabsの専有モデルに対し、Chatterboxを好みました。
Resemble AIは、Hugging Face(Gradio)を通じてデモインターフェースを提供し、ローカルインストールなしでモデルをテストできます。より集中的またはクリティカルな使用のために、同社は200 ms未満の遅延でTTSエンジンの商用バージョンを提供しています。