TLDR : スタートアップResemble AIは、数秒で音声を模倣し、スピーチの感情を制御し、リアルタイムでオーディオを生成できるオープンソースの音声合成ツール「Chatterbox」を発表しました。他の専有モデルと比較して、Chatterboxはリスナーに63.75%支持され、市場での魅力的な代替オプションとしての地位を確立しています。
カナダのスタートアップ、Resemble AIは最近、初のオープンソースTTS(Text-to-Speech)モデル「Chatterbox」を発表しました。MITライセンスの下で配布されているこの音声クローンモデルは、市場の専有ソリューションに対する信頼できる代替手段として位置づけられ、オープンソースモデルとしての新機能を導入しています。
Chatterboxは5億パラメータのアーキテクチャに基づいており、50万時間のクリーンデータでトレーニングされています。
モデルの主な特徴:
- ゼロショット音声クローン:わずか数秒の参照オーディオで、Chatterboxは追加のトレーニングなしに任意の声を模倣できます;
- 感情のコントロール:他の音声合成モデルとは異なり、Chatterboxはユーザーのニーズに応じて単調なトーンから劇的な表現力まで、スピーチの感情強度を調整できます;
- リアルタイム音声合成:アライメントベースの生成により、モデルはリアルタイム推論時間よりも速く動作し、音声アシスタント、ビデオゲーム、およびインタラクティブアプリケーションに最適です。
- セキュリティウォーターマーク:生成された各オーディオファイルには、生成されたコンテンツの透明性と追跡可能性を保証する知覚ウォーターマーク(PerTh Watermarker)が含まれています。
Chatterboxの使用は、CUDAと互換性のある専用Pythonライブラリ(
chatterbox-tts)を介して簡素化されています。モデルはローカルまたは事前トレーニングされたモデルから初期化できます。開発者は、スタイルやターゲットボイスを調整するためにカスタム音声サンプル(オーディオプロンプト)を提供することもできます。Resemble AIは市場の専有モデルとChatterboxを比較しました。
Chatterbox vs 競合
特徴 | Chatterbox | ElevenLabs | Google TTS | Azure TTS |
|---|---|---|---|---|
ライセンス | MIT(無料) | 専有 | 専有 | 専有 |
感情のコントロール | 高度 | 基本 | ![]() | ![]() |
遅延 | <200 ms | ~300 ms | ~400秒 | ~500 ms |
ユーザープリファレンス | 63.75% | 36.25% | N/A | N/A |
ウォーターマーク | 組み込み | ![]() | ![]() | ![]() |
音声クローン | はい | はい | ![]() | 制限あり |
Podonosが実施した比較テストでは、リスナーの63.75%が市場のリーダーとされるElevenLabsの専有モデルに対し、Chatterboxを好みました。
Resemble AIは、Hugging Face(Gradio)を通じてデモインターフェースを提供し、ローカルインストールなしでモデルをテストできます。より集中的またはクリティカルな使用のために、同社は200 ms未満の遅延でTTSエンジンの商用バージョンを提供しています。
高度