Chatterbox: 音声合成におけるオープンソースの突破口

TLDR : スタートアップResemble AIは、数秒で音声を模倣し、スピーチの感情を制御し、リアルタイムでオーディオを生成できるオープンソースの音声合成ツール「Chatterbox」を発表しました。他の専有モデルと比較して、Chatterboxはリスナーに63.75%支持され、市場での魅力的な代替オプションとしての地位を確立しています。

カナダのスタートアップ、Resemble AIは最近、初のオープンソースTTS（Text-to-Speech）モデル「Chatterbox」を発表しました。MITライセンスの下で配布されているこの音声クローンモデルは、市場の専有ソリューションに対する信頼できる代替手段として位置づけられ、オープンソースモデルとしての新機能を導入しています。

Chatterboxは5億パラメータのアーキテクチャに基づいており、50万時間のクリーンデータでトレーニングされています。

モデルの主な特徴：

ゼロショット音声クローン：わずか数秒の参照オーディオで、Chatterboxは追加のトレーニングなしに任意の声を模倣できます；
感情のコントロール：他の音声合成モデルとは異なり、Chatterboxはユーザーのニーズに応じて単調なトーンから劇的な表現力まで、スピーチの感情強度を調整できます；
リアルタイム音声合成：アライメントベースの生成により、モデルはリアルタイム推論時間よりも速く動作し、音声アシスタント、ビデオゲーム、およびインタラクティブアプリケーションに最適です。
セキュリティウォーターマーク：生成された各オーディオファイルには、生成されたコンテンツの透明性と追跡可能性を保証する知覚ウォーターマーク（PerTh Watermarker）が含まれています。

Chatterboxの使用は、CUDAと互換性のある専用Pythonライブラリ（chatterbox-tts）を介して簡素化されています。モデルはローカルまたは事前トレーニングされたモデルから初期化できます。開発者は、スタイルやターゲットボイスを調整するためにカスタム音声サンプル（オーディオプロンプト）を提供することもできます。

Resemble AIは市場の専有モデルとChatterboxを比較しました。

Chatterbox vs 競合

特徴	Chatterbox	ElevenLabs	Google TTS	Azure TTS
ライセンス	MIT（無料）	専有	専有	専有
感情のコントロール	高度	基本
遅延	<200 ms	~300 ms	~400秒	~500 ms
ユーザープリファレンス	63.75%	36.25%	N/A	N/A
ウォーターマーク	組み込み
音声クローン	はい	はい		制限あり

Podonosが実施した比較テストでは、リスナーの63.75%が市場のリーダーとされるElevenLabsの専有モデルに対し、Chatterboxを好みました。

Resemble AIは、Hugging Face（Gradio）を通じてデモインターフェースを提供し、ローカルインストールなしでモデルをテストできます。より集中的またはクリティカルな使用のために、同社は200 ms未満の遅延でTTSエンジンの商用バージョンを提供しています。

翻訳元 Chatterbox : une percée open source dans la synthèse vocale