xAI abre API de audio Grok STT y TTS, reduciendo la tasa de error total de palabras en STT a 6.9%

robot
Generación de resúmenes en curso
ME News Noticias, 18 de abril (UTC+8), según Beating de Monitoreo de Dongcha, xAI ha lanzado dos API de audio independientes: Grok Speech to Text y Grok Text to Speech. Ambos provienen de la misma pila de audio que soporta Grok Voice, el sistema de infoentretenimiento de Tesla y el servicio al cliente de Starlink, y ahora están disponibles en forma de endpoints independientes, permitiendo a los desarrolladores acceder directamente a agentes de voz, transcripción en tiempo real, herramientas de accesibilidad y podcasts. STT ofrece dos modos. La API REST se usa para transcribir en lote archivos de audio grandes, con respuesta en milisegundos; la API WebSocket está orientada a flujos de voz en tiempo real. Las capacidades adicionales incluyen marcas de tiempo a nivel de palabra, separación de hablantes (diarización), reconocimiento en múltiples canales y Normalización de Texto Inversa, que convierte automáticamente números, fechas y monedas en textos estructurados y normalizados en el habla. Soporta más de 25 idiomas, con cambio fluido en las conversaciones. xAI también publicó una comparación de tasas de error de palabras (WER, cuanto menor mejor): en escenarios generales, Grok 6.9%, ElevenLabs 9.0%, Deepgram 11.0%, AssemblyAI 12.9%; la diferencia en la «reconocimiento de entidades en llamadas telefónicas» es aún mayor, Grok 5.0%, en comparación con 12.0%, 13.5% y 21.3% de las otras tres. En escenarios comunes como reuniones, podcasts en video y llamadas telefónicas, Grok también lidera ligeramente. Estos números fueron publicados por xAI tras pruebas internas, sin verificaciones de terceros. En cuanto a precios, STT por lotes cuesta 0.10 dólares por hora, en streaming 0.20 dólares por hora; TTS cuesta 4.20 dólares por cada millón de caracteres. TTS soporta control de emociones y entonación mediante etiquetas de discurso en línea, como \[laugh\], \[sigh\], \[whisper\], y \. (Fuente: BlockBeats)
XAI-0,55%
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 7
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
GateUser-7919e6b9
· hace2h
STT por lotes cuesta solo 0.1 dólares por hora, ¡es más barato que la API de Whisper!
Ver originalResponder0
GateUser-28f37882
· hace4h
La misma pila alimentada con Grok Voice, sistemas de a bordo, Starlink, esta integración de recursos de xAI tiene algo interesante
Ver originalResponder0
Don'tMessWithSlippage.
· hace4h
Grok esta pila de audio finalmente ha sido abierta al público, los propietarios de Tesla están eufóricos
Ver originalResponder0
ReflectiveChainShadow
· hace4h
WebSocket transmisión en tiempo real de 0.2 dólares por hora, ¿puede funcionar en escenarios de subtítulos en vivo?
Ver originalResponder0
MossyLedger
· hace4h
WER en comparación sin una nueva prueba por parte de un tercero, dejemos que la situación se calme un poco primero
Ver originalResponder0
MistBlueLily
· hace4h
La función de normalización de texto invertido es muy útil para los asistentes de voz, finalmente ya no es necesario escribir reglas por uno mismo
Ver originalResponder0
NodeUnderTheAurora
· hace4h
¿La TTS de 4.2 dólares por millón de caracteres es más barata o más cara que ElevenLabs? ¿Alguien lo ha calculado?
Ver originalResponder0