xAI lança API de conversão de voz para texto e de texto para voz Grok

robot
Geração do resumo em andamento
ME News Notícias, 18 de abril (UTC+8), a xAI anunciou oficialmente o lançamento de duas APIs de áudio independentes: Grok de conversão de voz em texto (STT) e Grok de texto em voz (TTS).
O Grok STT oferece serviços de transcrição com alta precisão e baixa latência, suportando processamento em lote via API REST e transcrição em fluxo em tempo real via API WebSocket, além de possuir marcações de tempo por palavra, separação de falantes, suporte a múltiplos canais e normalização inteligente de texto invertido.
O artigo menciona que, em testes de referência em áreas como chamadas telefônicas, reuniões, vídeos/podcasts, sua taxa de erro de palavra supera modelos comerciais principais como ElevenLabs, Deepgram e AssemblyAI.
O serviço suporta mais de 25 idiomas, com preços de US$ 0,10 por hora para processamento em lote e US$ 0,20 por hora para processamento em fluxo.
O Grok TTS pode gerar vozes rápidas, naturais e expressivas, suportando controle granular por meio de simples etiquetas de voz, com preço de US$ 4,20 por milhão de caracteres.
As duas APIs são baseadas na mesma pilha tecnológica que alimenta o Grok Voice, veículos Tesla e suporte ao cliente Starlink. (Fonte: InFoQ)
XAI-2,99%
GROK-4,07%
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 7
  • 3
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
RiskParachute
· 10h atrás
Espera, o TTS consegue controle de granularidade fina através de tags? Então, é possível ajustar emoções e tons?
Ver originalResponder0
BitByBitBenny
· 10h atrás
Marcadores de tempo por palavra + separação de falantes, um verdadeiro aliado para atas de reunião, quero experimentar
Ver originalResponder0
FrictionlessFred
· 10h atrás
Grok Voice, Tesla, Starlink usam uma mesma pilha de tecnologia, Musk entendeu bem esse ciclo ecológico fechado
Ver originalResponder0
GoldfishUnderTheIce
· 10h atrás
O que é a tecnologia avançada de normalização reversa de texto, que transforma fala coloquial em texto padrão?
Ver originalResponder0
Don'tMessWithSlippage.
· 10h atrás
Cobertura em 25 idiomas, alguém já testou como fica o efeito em chinês?
Ver originalResponder0
YieldBonsai
· 10h atrás
4,20 dólares por milhão de caracteres, esse número é intencional, né?
Ver originalResponder0
IOnlyTrustOn-ChainData.
· 10h atrás
xAI, essa rodada de precificação da API de áudio está bastante agressiva, 0,1 dólar por hora em lote, parece que vai acabar matando uma turma de fornecedores de ASR.
Ver originalResponder0