Futuros
Acesse centenas de contratos perpétuos
TradFi
Ouro
Plataforma única para ativos tradicionais globais
Opções
Hot
Negocie opções vanilla no estilo europeu
Conta unificada
Maximize sua eficiência de capital
Negociação demo
Introdução à negociação de futuros
Prepare-se para sua negociação de futuros
Eventos de futuros
Participe de eventos e ganhe recompensas
Negociação demo
Use fundos virtuais para experimentar negociações sem riscos
Lançamento
CandyDrop
Colete candies para ganhar airdrops
Launchpool
Staking rápido, ganhe novos tokens em potencial
HODLer Airdrop
Possua GT em hold e ganhe airdrops massivos de graça
Launchpad
Chegue cedo para o próximo grande projeto de token
Pontos Alpha
Negocie on-chain e receba airdrops
Pontos de futuros
Ganhe pontos de futuros e colete recompensas em airdrop
Investimento
Simple Earn
Ganhe juros com tokens ociosos
Autoinvestimento
Invista automaticamente regularmente
Investimento duplo
Lucre com a volatilidade do mercado
Soft Staking
Ganhe recompensas com stakings flexíveis
Empréstimo de criptomoedas
0 Fees
Penhore uma criptomoeda para pegar outra emprestado
Centro de empréstimos
Centro de empréstimos integrado
Centro de riqueza VIP
Planos premium de crescimento de patrimônio
Gestão privada de patrimônio
Alocação premium de ativos
Fundo Quantitativo
Estratégias quant de alto nível
Apostar
Faça staking de criptomoedas para ganhar em produtos PoS
Alavancagem Inteligente
Alavancagem sem liquidação
Cunhagem de GUSD
Cunhe GUSD para retornos em RWA
Microsoft abre a família de IA de voz de ponta VibeVoice de código aberto: processamento de até 90 minutos de diálogos com múltiplos falantes de uma só vez, GitHub rapidamente alcança 27K estrelas
null
A Microsoft recentemente tornou open-source uma família de modelos de IA de voz de ponta chamada VibeVoice, que abrange várias capacidades, incluindo reconhecimento automático de fala (ASR) e conversão de texto em fala (TTS). Este projeto, com o seu poderoso processamento de áudio longo, geração de diálogos naturais com múltiplos falantes e características de baixa latência em tempo real, rapidamente chamou a atenção na comunidade de desenvolvedores, tendo atualmente cerca de 27K estrelas no GitHub.
Como um quadro de pesquisa open-source, o VibeVoice utiliza a licença MIT, suportando implementação local sem taxas de subscrição na nuvem, com o objetivo de promover a colaboração e inovação no campo da síntese de voz. A família de modelos inclui três membros principais, cada um com um foco específico, que juntos abordam as dificuldades da IA de voz tradicional em processamento de longas sequências, consistência do falante e fluência natural.
VibeVoice-ASR-7B: ferramenta de conversão de voz estruturada para texto de até 60 minutos
O VibeVoice-ASR-7B é um modelo unificado de conversão de voz em texto, capaz de processar ficheiros de áudio de até 60 minutos de uma só vez, produzindo resultados de transcrição estruturados. A saída não só inclui “quem está a falar” (identificação do falante), “quando está a falar” (timestamp preciso), mas também “o que foi dito” (conteúdos detalhados), e suporta a funcionalidade de palavras-chave personalizadas, que pode melhorar significativamente a precisão de reconhecimento de nomes próprios ou termos técnicos. Este modelo suporta mais de 50 idiomas e é adequado para registos de reuniões longas, transcrições de podcasts e outros cenários complexos.
Desenvolvedores da comunidade já criaram ferramentas práticas baseadas neste modelo, como um método de entrada de voz chamado Vibing, que é compatível com plataformas macOS e Windows. O feedback dos utilizadores indica que a sua velocidade de reconhecimento e precisão são boas, podendo aumentar significativamente a eficiência da entrada de voz no dia a dia.
VibeVoice-TTS-1.5B: geração de voz expressiva de múltiplos falantes por 90 minutos
O VibeVoice-TTS-1.5B é o modelo central focado na conversão de texto em fala, capaz de gerar até 90 minutos de áudio contínuo numa única produção, suportando até 4 falantes diferentes para simular diálogos naturais. A voz gerada pelo modelo é expressiva, soa natural e fluente, capaz de simular pausas reais, ênfases e mudanças emocionais, sendo ideal para a produção de podcasts, narrativas de áudio longas, audiolivros ou conteúdos de diálogos com múltiplos personagens.
Comparado a muitos modelos TTS tradicionais que suportam apenas 1-2 falantes, o VibeVoice-TTS alcançou um avanço significativo na consistência de múltiplos falantes em formatos longos. A sua base utiliza um segmentador de voz contínua (segmentador acústico e semântico) combinado com um design de baixa taxa de quadros (7.5Hz), melhorando bastante a eficiência computacional no processamento de longas sequências.
VibeVoice-Realtime-0.5B: TTS em tempo real com cerca de 300 milissegundos de latência
O VibeVoice-Realtime-0.5B foca em cenários em tempo real, suportando entrada de texto em fluxo, com uma latência de saída de áudio inicial de cerca de 300 milissegundos, ao mesmo tempo que consegue gerar cerca de 10 minutos de áudio longo. Este modelo é especialmente adequado para aplicações interativas que requerem respostas imediatas, como assistentes de voz em tempo real ou cenários de narração ao vivo.
Além disso, o projeto também introduziu suporte experimental para falantes, incluindo vozes multilíngues e várias variantes de estilos de inglês, oferecendo mais espaço para personalização aos desenvolvedores.
Análise da AIbase: a abertura do VibeVoice pela Microsoft não só reduziu a barreira de entrada para a utilização de IA de voz de alto desempenho, como também proporcionou uma solução completa para implementação local. O projeto foi temporariamente retirado devido a potenciais riscos de uso indevido, mas foi relançado com mecanismos de segurança como marcas d’água em áudio e isenções audíveis, refletindo os princípios de desenvolvimento responsável de IA. Atualmente, os desenvolvedores podem obter pesos de modelos no repositório do GitHub e no Hugging Face, e experimentar rapidamente através de plataformas como o Colab.
Com a contínua contribuição da comunidade open-source (como forks otimizados para Apple Silicon), o VibeVoice promete acelerar a sua implementação em áreas como criação de conteúdo, ferramentas de acessibilidade e interação de voz. Desenvolvedores interessados podem visitar a página oficial do projeto da Microsoft para explorar mais.
Endereço do projeto: