Microsoft abre a família de IA de voz de ponta VibeVoice de código aberto: processamento de até 90 minutos de diálogos com múltiplos falantes de uma só vez, GitHub rapidamente alcança 27K estrelas

MarsBitNews · 2026-03-30T07:24:07+00:00

A Microsoft lançou o modelo de IA de voz de código aberto VibeVoice, que suporta reconhecimento automático de fala e conversão de texto em fala, com capacidades de processamento de áudio de longa duração e geração de diálogos com múltiplos falantes. O projeto visa impulsionar a inovação no campo da síntese de voz, com o modelo suportando implantação local, sem custos de nuvem. O VibeVoice inclui três modelos principais, destinados à transcrição de longas gravações, geração de voz com múltiplos falantes e síntese de voz em tempo real, melhorando o desempenho da IA de voz tradicional.

MarsBitNews

2026-03-30 07:24:07

Geração do resumo em andamento

null

A Microsoft recentemente tornou open-source uma família de modelos de IA de voz de ponta chamada VibeVoice, que abrange várias capacidades, incluindo reconhecimento automático de fala (ASR) e conversão de texto em fala (TTS). Este projeto, com o seu poderoso processamento de áudio longo, geração de diálogos naturais com múltiplos falantes e características de baixa latência em tempo real, rapidamente chamou a atenção na comunidade de desenvolvedores, tendo atualmente cerca de 27K estrelas no GitHub.

Como um quadro de pesquisa open-source, o VibeVoice utiliza a licença MIT, suportando implementação local sem taxas de subscrição na nuvem, com o objetivo de promover a colaboração e inovação no campo da síntese de voz. A família de modelos inclui três membros principais, cada um com um foco específico, que juntos abordam as dificuldades da IA de voz tradicional em processamento de longas sequências, consistência do falante e fluência natural.

VibeVoice-ASR-7B: ferramenta de conversão de voz estruturada para texto de até 60 minutos

O VibeVoice-ASR-7B é um modelo unificado de conversão de voz em texto, capaz de processar ficheiros de áudio de até 60 minutos de uma só vez, produzindo resultados de transcrição estruturados. A saída não só inclui “quem está a falar” (identificação do falante), “quando está a falar” (timestamp preciso), mas também “o que foi dito” (conteúdos detalhados), e suporta a funcionalidade de palavras-chave personalizadas, que pode melhorar significativamente a precisão de reconhecimento de nomes próprios ou termos técnicos. Este modelo suporta mais de 50 idiomas e é adequado para registos de reuniões longas, transcrições de podcasts e outros cenários complexos.

Desenvolvedores da comunidade já criaram ferramentas práticas baseadas neste modelo, como um método de entrada de voz chamado Vibing, que é compatível com plataformas macOS e Windows. O feedback dos utilizadores indica que a sua velocidade de reconhecimento e precisão são boas, podendo aumentar significativamente a eficiência da entrada de voz no dia a dia.

VibeVoice-TTS-1.5B: geração de voz expressiva de múltiplos falantes por 90 minutos

O VibeVoice-TTS-1.5B é o modelo central focado na conversão de texto em fala, capaz de gerar até 90 minutos de áudio contínuo numa única produção, suportando até 4 falantes diferentes para simular diálogos naturais. A voz gerada pelo modelo é expressiva, soa natural e fluente, capaz de simular pausas reais, ênfases e mudanças emocionais, sendo ideal para a produção de podcasts, narrativas de áudio longas, audiolivros ou conteúdos de diálogos com múltiplos personagens.

Comparado a muitos modelos TTS tradicionais que suportam apenas 1-2 falantes, o VibeVoice-TTS alcançou um avanço significativo na consistência de múltiplos falantes em formatos longos. A sua base utiliza um segmentador de voz contínua (segmentador acústico e semântico) combinado com um design de baixa taxa de quadros (7.5Hz), melhorando bastante a eficiência computacional no processamento de longas sequências.

VibeVoice-Realtime-0.5B: TTS em tempo real com cerca de 300 milissegundos de latência

O VibeVoice-Realtime-0.5B foca em cenários em tempo real, suportando entrada de texto em fluxo, com uma latência de saída de áudio inicial de cerca de 300 milissegundos, ao mesmo tempo que consegue gerar cerca de 10 minutos de áudio longo. Este modelo é especialmente adequado para aplicações interativas que requerem respostas imediatas, como assistentes de voz em tempo real ou cenários de narração ao vivo.

Além disso, o projeto também introduziu suporte experimental para falantes, incluindo vozes multilíngues e várias variantes de estilos de inglês, oferecendo mais espaço para personalização aos desenvolvedores.

Análise da AIbase: a abertura do VibeVoice pela Microsoft não só reduziu a barreira de entrada para a utilização de IA de voz de alto desempenho, como também proporcionou uma solução completa para implementação local. O projeto foi temporariamente retirado devido a potenciais riscos de uso indevido, mas foi relançado com mecanismos de segurança como marcas d’água em áudio e isenções audíveis, refletindo os princípios de desenvolvimento responsável de IA. Atualmente, os desenvolvedores podem obter pesos de modelos no repositório do GitHub e no Hugging Face, e experimentar rapidamente através de plataformas como o Colab.

Com a contínua contribuição da comunidade open-source (como forks otimizados para Apple Silicon), o VibeVoice promete acelerar a sua implementação em áreas como criação de conteúdo, ferramentas de acessibilidade e interação de voz. Desenvolvedores interessados podem visitar a página oficial do projeto da Microsoft para explorar mais.

Endereço do projeto:

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.