オープンソースのTTSがついにリアルタイムストリーミングに追いついた、Higgs Audio v3の遅延制御はなかなかのものだ、ゼロショットクローン+感情タグを駆使してかなり遊べる

原文表示
CoinNetwork
Boson AIオープンソースの4B音声モデルHiggs Audio v3、ストリーミング感情制御をサポート
Boson AI オープンソースの Higgs Audio v3 TTS 重み、Qwen3-4B に基づき、約40億パラメータ、リアルタイムストリーミング対話に最適化、テキスト未完了時に即座に合成を開始し遅延を低減。100以上の言語/方言をサポートし、文字・単語の誤り率を十位数に抑制、ゼロショット音声クローンをサポートし、テキスト内に20以上の感情や多様な制御タグを埋め込むことが可能。LMSYS と SGLang-Omni フレームワークでエンドツーエンドの最適化を実現し、H100 一枚での単一並列リアルタイムレートは0.147。重みは Hugging Face で公開されており、非商用研究ライセンスを採用。
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし