La tasa de error en palabras de STT es más baja que la de los competidores, TTS también puede ajustar el tono usando etiquetas, y la misma pila tecnológica alimenta a Grok Voice, Tesla y Starlink—¿Musk quiere dominar toda la cadena de interacción por voz?

Ver original
MeNews
xAI lanza la API de conversión de voz a texto y de texto a voz de Grok
ME News informa que xAI lanza oficialmente las API de audio independientes Grok STT y Grok TTS. Grok STT ofrece alta precisión, baja latencia, admite procesamiento en lote vía REST, transcripción en tiempo real por WebSocket, con marcas de tiempo a nivel de palabra, separación de hablantes, múltiples canales y normalización inteligente de texto invertido, cubriendo más de 25 idiomas; costo por lote 0.10 dólares por hora, transmisión en tiempo real 0.20 dólares por hora, con una tasa de error de palabras inferior a la de varios competidores. Grok TTS proporciona voz rápida, natural y con control granular mediante etiquetas, con un precio de 4.20 dólares por millón de caracteres. Ambos basados en la misma pila tecnológica, utilizados por Grok Voice, Tesla y Starlink.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado