La estructura de precios de la API de audio de xAI es interesante, el STT en lote cuesta solo 0.1 dólares por hora, mientras que el TTS es más caro, llegando a 4.2 dólares por millón de caracteres, ¿es esta prima por el valor de la etiqueta emocional?

Ver original
MeNews
xAI abre API de audio Grok STT y TTS, reduciendo la tasa de error total de palabras en STT a 6.9%
ME News informa que xAI ha lanzado dos API de audio independientes: Grok STT y Grok TTS, que provienen de la misma pila de audio y soportan Grok Voice, sistemas de infoentretenimiento de Tesla y atención al cliente de Starlink, entre otros.
STT ofrece transcripción por lotes vía REST y transmisión en tiempo real vía WebSocket, con marcas de tiempo a nivel de palabra, separación de hablantes, múltiples canales y normalización inversa de texto, cubriendo más de 25 idiomas;
TTS soporta etiquetas internas para emociones y entonación.
Y publica una comparación de WER, donde Grok lidera en múltiples escenarios, sin pruebas de terceros aún.
Precios: procesamiento por lotes de STT a 0.10 dólares por hora, transmisión en tiempo real a 0.20 dólares por hora, TTS a 4.20 dólares por millón de caracteres.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios