Las marcas de tiempo a nivel de palabra y la separación de hablantes en Grok STT son necesidades básicas para los editores de podcasts, pero los datos de WER hablan por sí mismos, esperando una reevaluación por parte de un tercero.

GROK-7,79%
STT-1,1%
Ver original
MeNews
xAI abre API de audio Grok STT y TTS, reduciendo la tasa de error total de palabras en STT a 6.9%
ME News informa que xAI ha lanzado dos API de audio independientes: Grok STT y Grok TTS, que provienen de la misma pila de audio, y soportan Grok Voice, sistemas de infoentretenimiento de Tesla y atención al cliente de Starlink, entre otros. STT ofrece transcripción por lotes vía REST y transmisión en tiempo real vía WebSocket, con marcas de tiempo a nivel de palabra, separación de hablantes, múltiples canales y normalización inversa de texto, cubriendo más de 25 idiomas; TTS soporta etiquetas internas para emociones y entonación. Además, se publicó una comparación de WER, donde Grok lidera en múltiples escenarios, sin pruebas de terceros aún. Precios: procesamiento por lotes de STT a 0.10 dólares por hora, transmisión en tiempo real a 0.20 dólares por hora, y TTS a 4.20 dólares por millón de caracteres.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 1
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
GateUser-dd0c6b87
· hace11h
No es lo mismo en absoluto, no engañes a la gente
Ver originalResponder0