xAI abre API de audio Grok STT y TTS, reduciendo la tasa de error total de palabras en STT a 6.9%

ME News Noticias, 18 de abril (UTC+8), según Beating de Monitoreo de Dongcha, xAI ha lanzado dos API de audio independientes: Grok Speech to Text y Grok Text to Speech. Ambos provienen de la misma pila de audio que soporta Grok Voice, el sistema de infoentretenimiento de Tesla y el servicio al cliente de Starlink, y ahora están disponibles en forma de endpoints independientes, permitiendo a los desarrolladores acceder directamente a agentes de voz, transcripción en tiempo real, herramientas de accesibilidad y podcasts. STT ofrece dos modos. La API REST se usa para transcribir en lote archivos de audio grandes, con respuesta en milisegundos; la API WebSocket está orientada a flujos de voz en tiempo real. Las capacidades adicionales incluyen marcas de tiempo a nivel de palabra, separación de hablantes (diarización), reconocimiento en múltiples canales y Normalización Inversa de Texto, que convierte automáticamente números, fechas y monedas en textos estructurados y normalizados en el habla. Soporta más de 25 idiomas, con cambio fluido en las conversaciones. xAI también publicó una comparación de tasas de error de palabras (WER, cuanto menor mejor): en escenarios generales, Grok 6.9%, ElevenLabs 9.0%, Deepgram 11.0%, AssemblyAI 12.9%; la diferencia en la «reconocimiento de entidades en llamadas telefónicas» es aún mayor, Grok 5.0%, en comparación con 12.0%, 13.5% y 21.3% de las otras tres. En escenarios comunes como reuniones, podcasts en video y llamadas telefónicas, Grok también lidera ligeramente. Estas cifras fueron publicadas por xAI tras pruebas internas, sin verificaciones de terceros. En cuanto a precios, STT por lotes cuesta 0.10 dólares por hora, en streaming 0.20 dólares por hora; TTS cuesta 4.20 dólares por cada millón de caracteres. TTS soporta control de emociones y entonación mediante etiquetas de discurso en línea, como \[laugh\], \[sigh\], \[whisper\], (Fuente: BlockBeats).
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 5
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Post-RainTvl
· hace5h
El movimiento de Musk es grande, la infraestructura de xAI se está desarrollando más rápido de lo que se imaginaba
Ver originalResponder0
TacoTreasury
· hace8h
Grok en el área de voz tiene una estructura bastante profunda, tanto en vehículos como en atención al cliente satelital usan el mismo sistema, la estabilidad debería ser buena.
Ver originalResponder0
GateUser-7cb48814
· hace9h
Transcripción en tiempo real por WebSocket, lista para usar en escenarios de subtítulos en vivo
Ver originalResponder0
TheProphetOfToast
· hace9h
El sistema de infoentretenimiento de Tesla es del mismo origen, por lo que el ecosistema de interacción por voz del sistema de vehículo podría estar vinculado.
Ver originalResponder0
GateUser-e4fb1fbe
· hace9h
El mismo conjunto de pila de audio soporta tantos escenarios, la reutilización del proyecto está bien hecha.
Ver originalResponder0