¿Te gusta el sonido de Tesla? xAI abre oficialmente la API de voz Grok, TTS a 4.2 dólares por millón de caracteres, con una tasa de reconocimiento que supera a ElevenLabs

robot
Generación de resúmenes en curso

xAI oficialmente lanza esta semana las API independientes de Reconocimiento de Voz (STT) y Conversión de Texto a Voz (TTS), esta pila tecnológica ya funciona en Grok Voice, vehículos Tesla y el sistema de atención al cliente de Starlink.
Los precios de STT son $0.10 por hora en lotes y $0.20 por hora en streaming, soportando más de 25 idiomas.
(Resumen previo: ¡Beta de Grok 4.3 abierta a suscriptores Heavy! Musk: la versión flagship real estará lista en 5 días)
(Información adicional: Google lanza Gemini 3.1 Flash TTS: etiquetas de audio hacen que las voces AI sean más vivas, soportando más de 70 idiomas, Google AI Studio ofrece prueba gratuita)

Índice de este artículo

Alternar

  • STT: marcas de tiempo a nivel de palabra + diferenciación de hablantes, transcripción por lotes a solo $0.10 por hora
  • TTS: 5 personalidades de voz + etiquetas de voz, $4.2 por millón de caracteres
  • La misma pila tecnológica ya impulsa a Tesla y Starlink

La misma tecnología que permite a los vehículos Tesla hablar y a Starlink responder a los usuarios ahora está disponible a través de API. xAI anunció oficialmente el 17 de este mes el lanzamiento de las API independientes de Grok Voice Recognition (STT) y Text-to-Speech (TTS), permitiendo a desarrolladores externos acceder directamente a esta infraestructura de voz que ya funciona en productos bajo la marca xAI.

STT: marcas de tiempo a nivel de palabra + diferenciación de hablantes, transcripción por lotes a solo $0.10 por hora

Según la explicación oficial, la API Grok STT ofrece dos modos de acceso: procesamiento por lotes vía API REST y streaming en tiempo real con baja latencia vía API WebSocket. En cuanto a precios, el procesamiento por lotes cuesta $0.10 por hora y el streaming $0.20 por hora, con una ventaja competitiva significativa frente a rivales como ElevenLabs y Deepgram.

En cuanto a funciones, Grok STT soporta más de 25 idiomas, con marcas de tiempo a nivel de palabra, diferenciación de hablantes (diarización), además de audio multicanal y normalización inteligente de texto inverso. Es ideal para transcripción de reuniones, registros legales y médicos, logs de atención al cliente y otros escenarios empresariales que requieren alta precisión.

En pruebas de reconocimiento de entidades, Grok STT mostró ventajas. Al identificar nombres, cuentas y fechas en llamadas telefónicas, la tasa de error de Grok STT fue del 5.0%, frente al 12.0% de ElevenLabs, 13.5% de Deepgram y 21.3% de AssemblyAI.

TTS: 5 personalidades de voz + etiquetas de voz, $4.2 por millón de caracteres

La API Grok TTS ofrece cinco estilos de voz: Ara (femenina, cálida y cercana), Eve (femenina, enérgica y positiva), Leo (masculino, autoritario y potente), Rex (masculino, confiado y claro), Sal (neutral, fluido y equilibrado).

La API detecta automáticamente el idioma de entrada, soporta nativamente más de 20 idiomas y controla la pronunciación mediante códigos de idioma BCP-47.

Los formatos de salida de audio incluyen MP3, WAV, PCM (Linear16), G.711 μ-law y G.711 A-law, estos últimos comunes en sistemas telefónicos, mostrando la integración de xAI en telecomunicaciones.

Una característica destacada de TTS son las “etiquetas de voz”, que permiten a los desarrolladores incrustar instrucciones en el texto para controlar pausas, risas, susurros, énfasis en el tono, velocidad y tono, haciendo que la voz sintetizada sea más natural y humana. El precio es de $4.20 por millón de caracteres.

La misma pila tecnológica ya impulsa a Tesla y Starlink

xAI enfatiza que estas API no son tecnologías completamente nuevas, sino que son las mismas infraestructuras que ya operan en Grok Voice, interacción de voz en vehículos Tesla y en el sistema de soporte al cliente de Starlink.

Esta infraestructura se presentó inicialmente a finales de 2025 en forma de la API Grok Voice Agent, que ofrecía capacidades de diálogo de voz en tiempo real y obtuvo el primer lugar en la prueba de referencia Big Bench Audio, con tiempos de respuesta de audio inferiores a 1 segundo, aproximadamente cinco veces más rápido que los competidores recientes.

El lanzamiento de estos endpoints independientes de STT y TTS equivale a dividir esta infraestructura de canal de voz integrada en componentes separados, permitiendo a los desarrolladores combinarlos según sus necesidades.

XAI-8,95%
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado