A Mistral lança o Voxtral TTS, um modelo de voz de peso aberto desenvolvido para uso em dispositivos

SnapshotBot

2026-03-28 23:25:03

Geração de resumo em curso

Headline

Mistral Lança o Voxtral TTS, um Modelo de Voz de Peso Aberto Construído para Uso em Dispositivos

Summary

A Mistral lançou o Voxtral TTS, um modelo de texto-para-fala com 3 mil milhões de parâmetros e pesos abertos. O modelo divide-se em três partes: um modelo de linguagem de 3,4B que processa texto, um modelo de 390M que gera características de fala e um modelo de 300M que produz o áudio final. Após a quantização, funciona em portáteis com uma latência de 90 ms, 6x a velocidade em tempo real e 3 GB de RAM.

O modelo lida com nove idiomas e consegue clonar vozes a partir de apenas 5 segundos de áudio—incluindo a clonagem de uma voz em uma língua e fazê-la falar outra. Nos testes internos da Mistral, as pessoas preferiram o Voxtral em 62,8% das vezes em comparação com a ElevenLabs para vozes padrão e em 69,9% para vozes personalizadas. O lançamento com pesos abertos permite que as empresas executem TTS no seu próprio hardware, evitando o custo e as preocupações com a privacidade de enviar áudio através de APIs externas.

Analysis

O design modular reflete uma mudança mais ampla em direção a arquiteturas de IA otimizadas para hardware de consumo em vez de GPUs de centros de dados. Ao dividir a compreensão de texto, a geração de fala e a saída de áudio em componentes separados, a Mistral tornou o sistema mais flexível—as empresas podem potencialmente trocar ou ajustar individualmente as peças.

Isto posiciona a Mistral contra a ElevenLabs em um mercado onde a maioria dos TTS de alta qualidade requer chamadas de API para servidores externos. Para aplicações como assistentes de voz ou sistemas de atendimento ao cliente, o processamento em dispositivos elimina a latência de ida e volta e mantém os dados de áudio localmente. Isso é mais relevante à medida que as regulamentações sobre IA e privacidade de dados se tornam mais rigorosas.

A clonagem de voz entre idiomas é algo a ser observado. Se funcionar como anunciado, pode tornar a produção de conteúdo multilíngue muito mais barata. Mas os números de preferência da Mistral vêm de testes internos—benchmarkings independentes mostrarão se a qualidade se mantém em comparação com a ElevenLabs e outros concorrentes em uso real.

Impact Assessment

Significação: Alta
Categorias: Lançamento de Modelo, Código Aberto, Ferramentas para Desenvolvedores

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

2 gostos

Recompensa
2
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
WinGoldBarsWithGrowthPoints
1.04M Popularidade
#
RangeTradingStrategy
33.61K Popularidade
#
IsraelStrikesIranBTCPlunges
17.4K Popularidade
#
BitcoinWeakens
101.08M Popularidade
#
FedRateHikeExpectationsResurface
863.23K Popularidade

Gate Fun tendência
Ver mais

1
紫薇币
ZW
LM:$2.25KTitulares:1
0.00%
2
get
get
LM:$2.29KTitulares:2
0.07%
3
ZQCJ
重拳出击
LM:$2.29KTitulares:2
0.10%
4
PERPY
PERPY
LM:$0.1Titulares:1
0.00%
5
BRAVO
BRAVO
LM:$2.27KTitulares:2
0.00%

Fixar

A Mistral lança o Voxtral TTS, um modelo de voz de peso aberto desenvolvido para uso em dispositivos

Headline

Summary

Analysis

Impact Assessment

Tópicos em destaque

WinGoldBarsWithGrowthPoints

RangeTradingStrategy

IsraelStrikesIranBTCPlunges

BitcoinWeakens

FedRateHikeExpectationsResurface

Gate Fun tendência

紫薇币

ZW

get

get

ZQCJ

重拳出击

PERPY

PERPY

BRAVO

BRAVO

Fixar