xAI esta combinación de audio está siendo bastante agresiva, la tarifa de transmisión en tiempo real de STT de 0.2 dólares por hora se compara directamente con Whisper, TTS también incluye etiquetas emocionales, Elon Musk quiere convertir la pista de voz en un mar rojo.

XAI4,39%
STT3,84%
Ver original
MeNews
xAI abre la API de audio Grok STT y TTS, reduciendo la tasa de error de palabras en general de STT a 6.9%
ME News reporta que xAI lanza dos API de audio independientes: Grok STT y Grok TTS, derivados de la misma pila de audio, que soportan Grok Voice, sistemas de infoentretenimiento de Tesla y atención al cliente de Starlink, entre otros.
STT ofrece transcripción en lote vía REST y flujo en tiempo real vía WebSocket, con marcas de tiempo a nivel de palabra, separación de hablantes, múltiples canales y normalización inversa de texto, cubriendo más de 25 idiomas;
TTS soporta etiquetas internas para emociones y entonación.
Y publica una comparación de WER, donde Grok lidera en múltiples escenarios, sin pruebas de terceros aún.
Precio: procesamiento por lotes de STT a 0.10 dólares por hora, en streaming a 0.20 dólares por hora, TTS a 4.20 dólares por millón de caracteres.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado