TTS de código aberto finalmente entrou na transmissão em tempo real, Higgs Audio v3 esse controle de atraso é bem interessante, clonagem de zero amostra + marcação de emoção é bem divertido

Ver original
CoinNetwork
Boson AI modelo de áudio de código aberto 4B Higgs Audio v3, suporta controle emocional em streaming
Boson AI código aberto Higgs Audio v3 TTS pesos, baseado em Qwen3-4B, aproximadamente 4 bilhões de parâmetros, otimizado para diálogos em fluxo contínuo em tempo real, começando a sintetizar antes do texto estar completo para reduzir a latência. Suporta mais de 100 idiomas/dialetos, taxa de erro de palavras e caracteres reduzida a um dígito, suporta clonagem de voz zero-shot e pode incorporar mais de 20 emoções e múltiplas tags de controle no texto. Com LMSYS, implementa otimização de ponta a ponta no framework SGLang-Omni, uma taxa de processamento em tempo real de 0,147 com uma única GPU H100. Os pesos foram publicados no Hugging Face, sob licença de pesquisa não comercial.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado