Grok paquete completo de voz integrado en la API, el sistema de infoentretenimiento de Tesla y el servicio de atención al cliente de Starlink ya lo están usando, los datos de autoevaluación de WER son buenos, pero esperemos la reevaluación de terceros.

Ver original
MeNews
xAI abre API de audio Grok STT y TTS, reduciendo la tasa de error general de palabras en STT a 6.9%
ME News reporta que xAI lanza dos API de audio independientes: Grok STT y Grok TTS, que provienen de la misma pila de audio, y soportan Grok Voice, sistemas de infoentretenimiento de Tesla y atención al cliente de Starlink, entre otros.
STT ofrece transcripción en lote vía REST y flujo en tiempo real vía WebSocket, con marcas de tiempo a nivel de palabra, separación de hablantes, múltiples canales y normalización inversa de texto, cubriendo más de 25 idiomas;
TTS soporta etiquetas internas para emociones y entonación.
Y publica una comparación de WER, donde Grok lidera en múltiples escenarios, sin pruebas de terceros aún.
Precios: procesamiento por lotes de STT a 0.10 dólares por hora, en streaming a 0.20 dólares por hora, TTS a 4.20 dólares por millón de caracteres.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado