ME News informa que xAI ha lanzado oficialmente dos API de audio independientes: Grok STT y Grok TTS. Grok STT ofrece alta precisión y baja latencia, soporta procesamiento en lote vía REST, transcripción en tiempo real mediante WebSocket, con marcas de tiempo a nivel de palabra, separación de hablantes, múltiples canales y normalización inteligente de texto invertido, cubriendo más de 25 idiomas; costo por lote de 0.10 dólares por hora, transmisión en tiempo real a 0.20 dólares por hora, con una tasa de error de palabras menor que varios competidores. Grok TTS proporciona voz rápida, natural y con control granular mediante etiquetas, con un precio de 4.20 dólares por millón de caracteres. Ambos se basan en la misma pila tecnológica, utilizados por Grok Voice, Tesla y Starlink.

MeNews

2026-05-25 20:56:03

Generación de resúmenes en curso

ME News Noticias, 18 de abril (UTC+8), xAI anunció oficialmente el lanzamiento de dos APIs de audio independientes: Grok de reconocimiento de voz a texto (STT) y Grok de texto a voz (TTS). Grok STT ofrece servicios de transcripción con alta precisión y baja latencia, soporta procesamiento en lote mediante API REST y transcripción en flujo en tiempo real mediante API WebSocket, y cuenta con marcas de tiempo a nivel de palabra, separación de hablantes, soporte multicanal y funciones inteligentes de normalización inversa de texto. Se menciona que, en pruebas de referencia en campos como llamadas telefónicas, reuniones, videos/podcasts, su tasa de error de palabras supera a modelos comerciales principales como ElevenLabs, Deepgram y AssemblyAI. Este servicio soporta más de 25 idiomas, con un precio de 0.10 dólares por hora para procesamiento en lote y 0.20 dólares por hora para procesamiento en flujo. Grok TTS puede generar voces rápidas, naturales y expresivas, soporta control granular mediante etiquetas de voz simples, y tiene un precio de 4.20 dólares por cada 1 millón de caracteres. Ambas APIs están basadas en la misma pila tecnológica que impulsa Grok Voice, los vehículos de Tesla y el soporte al cliente de Starlink. (Fuente: InFoQ)

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

6 me gusta

Recompensa
6
5
1
Compartir

Comentar

Añadir un comentario

GateUser-99725296

· hace7h

¿Se puede subir con este precio? Mira cómo responden Azure y AWS.

Ver originalResponder0

0xLateBreakfast

· hace7h

El precio por lotes y en flujo es el doble, el negocio debe hacer bien las cuentas.

Ver originalResponder0

RiskOffRina

· hace7h

El soporte multicanal es crucial para la transcripción de reuniones, finalmente ya no es necesario alinear manualmente.

Ver originalResponder0

WalletHealthInspector

· hace7h

Grok Voice utiliza estos dos API, ¿verdad? Finalmente se han separado

Ver originalResponder0

MosaicBowtieRealm

· hace7h

¿Los controles de etiquetas de granularidad fina pueden gestionar qué parámetros exactamente, velocidad de habla, tono o emociones?

Ver originalResponder0

Temas de actualidad
Ver más
#
StockTradingChallengeUpTo17000U
16.18M Popularidad
#
USStrikesIran
9.3M Popularidad
#
IsraelStrikesIranBTCPlunges
49.26K Popularidad
#
2gGoldEvery10Minutes
3.06M Popularidad
#
InstitutionalCapitalRotatesFromBTCToHYPEAndXRP
14.32M Popularidad

Fijado

xAI lanza la API de voz a texto y de texto a voz de Grok

Temas de actualidad

StockTradingChallengeUpTo17000U

USStrikesIran

IsraelStrikesIranBTCPlunges

2gGoldEvery10Minutes

InstitutionalCapitalRotatesFromBTCToHYPEAndXRP

Fijado