A Mistral lança o Voxtral TTS, um modelo de voz de peso aberto desenvolvido para uso em dispositivos

robot
Geração de resumo em curso

Headline

Mistral Lança o Voxtral TTS, um Modelo de Voz de Peso Aberto Construído para Uso em Dispositivos

Summary

A Mistral lançou o Voxtral TTS, um modelo de texto-para-fala com 3 mil milhões de parâmetros e pesos abertos. O modelo divide-se em três partes: um modelo de linguagem de 3,4B que processa texto, um modelo de 390M que gera características de fala e um modelo de 300M que produz o áudio final. Após a quantização, funciona em portáteis com uma latência de 90 ms, 6x a velocidade em tempo real e 3 GB de RAM.

O modelo lida com nove idiomas e consegue clonar vozes a partir de apenas 5 segundos de áudio—incluindo a clonagem de uma voz em uma língua e fazê-la falar outra. Nos testes internos da Mistral, as pessoas preferiram o Voxtral em 62,8% das vezes em comparação com a ElevenLabs para vozes padrão e em 69,9% para vozes personalizadas. O lançamento com pesos abertos permite que as empresas executem TTS no seu próprio hardware, evitando o custo e as preocupações com a privacidade de enviar áudio através de APIs externas.

Analysis

O design modular reflete uma mudança mais ampla em direção a arquiteturas de IA otimizadas para hardware de consumo em vez de GPUs de centros de dados. Ao dividir a compreensão de texto, a geração de fala e a saída de áudio em componentes separados, a Mistral tornou o sistema mais flexível—as empresas podem potencialmente trocar ou ajustar individualmente as peças.

Isto posiciona a Mistral contra a ElevenLabs em um mercado onde a maioria dos TTS de alta qualidade requer chamadas de API para servidores externos. Para aplicações como assistentes de voz ou sistemas de atendimento ao cliente, o processamento em dispositivos elimina a latência de ida e volta e mantém os dados de áudio localmente. Isso é mais relevante à medida que as regulamentações sobre IA e privacidade de dados se tornam mais rigorosas.

A clonagem de voz entre idiomas é algo a ser observado. Se funcionar como anunciado, pode tornar a produção de conteúdo multilíngue muito mais barata. Mas os números de preferência da Mistral vêm de testes internos—benchmarkings independentes mostrarão se a qualidade se mantém em comparação com a ElevenLabs e outros concorrentes em uso real.

Impact Assessment

  • Significação: Alta
  • Categorias: Lançamento de Modelo, Código Aberto, Ferramentas para Desenvolvedores
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar