O TTS de código aberto finalmente entrou na moda de streaming em tempo real, o Higgs Audio v3 tem um controle de atraso que é bastante interessante, clonagem de zero amostra + marcação de emoção é bastante elaborado

Ver original
CoinNetwork
Boson AI modelo de áudio de código aberto 4B Higgs Audio v3, suporta controlo emocional em fluxo
Boson AI código aberto Higgs Audio v3 TTS pesos, baseado em Qwen3-4B, aproximadamente 4 bilhões de parâmetros, otimizado para diálogos em fluxo contínuo em tempo real, iniciando a síntese antes da conclusão do texto para reduzir a latência. Suporta mais de 100 idiomas/dialetos, taxa de erro de palavras e caracteres reduzida a unidades, suporta clonagem de voz zero-amostra e pode incorporar mais de 20 emoções e múltiplas etiquetas de controlo no texto. Em parceria com LMSYS, implementa otimização de ponta a ponta no quadro SGLang-Omni, com uma taxa de processamento em tempo real de 0,147 em uma única execução concorrente na H100. Os pesos já foram publicados no Hugging Face, sob licença de pesquisa não comercial.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado