Mistral lanza Voxtral TTS, un modelo de voz de peso abierto diseñado para su uso en el dispositivo

robot
Generación de resúmenes en curso

Headline

Mistral lanza Voxtral TTS, un modelo de voz de peso abierto diseñado para uso en dispositivos

Summary

Mistral lanzó Voxtral TTS, un modelo de texto a voz de 3 mil millones de parámetros con pesos abiertos. El modelo se divide en tres partes: un modelo de lenguaje de 3.4B que procesa texto, un modelo de 390M que genera características de voz y un modelo de 300M que produce el audio final. Después de la cuantificación, funciona en laptops con una latencia de 90 ms, 6 veces la velocidad en tiempo real y 3 GB de RAM.

El modelo maneja nueve idiomas y puede clonar voces a partir de solo 5 segundos de audio, incluyendo la clonación de una voz en un idioma y haciéndola hablar otro. En las pruebas internas de Mistral, las personas prefirieron Voxtral sobre ElevenLabs el 62.8% del tiempo para voces predeterminadas y el 69.9% para voces personalizadas. La liberación de peso abierto permite a las empresas ejecutar TTS en su propio hardware, evitando el costo y las preocupaciones de privacidad de enviar audio a través de APIs externas.

Analysis

El diseño modular refleja un cambio más amplio hacia arquitecturas de IA optimizadas para hardware de consumo en lugar de GPUs de centros de datos. Al dividir la comprensión del texto, la generación de voz y la salida de audio en componentes separados, Mistral hizo que el sistema fuera más flexible; las empresas pueden potencialmente intercambiar o ajustar individualmente piezas.

Esto posiciona a Mistral contra ElevenLabs en un mercado donde la mayoría de los TTS de alta calidad requieren llamadas a APIs de servidores externos. Para aplicaciones como asistentes de voz o sistemas de atención al cliente, el procesamiento en el dispositivo elimina la latencia de ida y vuelta y mantiene los datos de audio locales. Eso importa más a medida que se endurecen las regulaciones en torno a la IA y la privacidad de los datos.

La clonación de voz entre idiomas es algo a tener en cuenta. Si funciona como se anuncia, podría hacer que la producción de contenido multilingüe sea mucho más barata. Pero los números de preferencia de Mistral provienen de pruebas internas; los benchmarks independientes mostrarán si la calidad se mantiene frente a ElevenLabs y otros competidores en el uso del mundo real.

Impact Assessment

  • Significado: Alto
  • Categorías: Lanzamiento de Modelo, Código Abierto, Herramientas para Desarrolladores
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado