開源 TTS 終於進入實時流式階段,Higgs Audio v3 這個延遲控制挺有一套,零樣本克隆+情緒標籤玩得挺花哨

查看原文
币 界 网
Boson AI開源4B音頻模型Higgs Audio v3,支持流式情感控制
Boson AI 開源 Higgs Audio v3 TTS 權重,基於 Qwen3-4B,約40億參數,針對實時流式對話優化,文本未完成即開始合成以降低延遲。支持100+語言/方言,字詞錯誤率降至個位數,支持零樣本聲音克隆並可在文本中嵌入20+情緒及多類控制標籤。與 LMSYS 在 SGLang-Omni 框架實現端到端優化,一張 H100 的單並發實時率為0.147。權重已在 Hugging Face 發布,採用非商業研究許可。
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆