xAI abre API de audio Grok STT y TTS, reduciendo la tasa de error total de palabras en STT a 6.9%

robot
Generación de resúmenes en curso
ME News Noticias, 18 de abril (UTC+8), según Beating de Dongcha, xAI ha lanzado dos API de audio independientes: Grok Speech to Text y Grok Text to Speech. Ambos provienen de la misma pila de audio que soporta Grok Voice, el sistema de infoentretenimiento de Tesla y el servicio al cliente de Starlink, y ahora están disponibles en forma de endpoints independientes, permitiendo a los desarrolladores acceder directamente a asistentes de voz, transcripción en tiempo real, herramientas de accesibilidad y podcasts. STT ofrece dos modos. La API REST se usa para transcribir en lote archivos de audio grandes con respuesta en milisegundos; la API WebSocket está orientada a flujos de voz en tiempo real. Las capacidades adicionales incluyen marcas de tiempo a nivel de palabra, separación de hablantes (diarización), reconocimiento en múltiples canales y Normalización de Texto Inversa, que convierte automáticamente números, fechas y monedas del habla en texto estructurado y normalizado. Soporta más de 25 idiomas, con cambio fluido en conversaciones. xAI también publicó una comparación de tasas de error de palabras (WER, cuanto menor mejor): en escenarios generales, Grok 6.9%, ElevenLabs 9.0%, Deepgram 11.0%, AssemblyAI 12.9%; la diferencia en la «reconocimiento de entidades en llamadas telefónicas» es aún mayor, Grok 5.0%, en comparación con las otras tres: 12.0%, 13.5%, 21.3%. En escenarios comunes como reuniones, podcasts en video y llamadas telefónicas, Grok también lidera ligeramente. Estas cifras fueron publicadas por xAI tras pruebas internas, sin verificación por terceros. En cuanto a precios, STT por lotes cuesta 0.10 dólares por hora, en streaming 0.20 dólares por hora; TTS cuesta 4.20 dólares por cada millón de caracteres. TTS soporta control de emociones y entonación mediante etiquetas de habla en línea, como \[laugh\], \[sigh\], \[whisper\], (Fuente: BlockBeats).
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 7
  • 2
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
SushiAndSlugs
· hace16h
Etiquetas internas de emociones en detalle, ¿puede hacer que la IA use un tono monótono y sarcástico?
Ver originalResponder0
FragilePosition
· hace16h
Marcado de tiempo a nivel de palabra + separación de hablantes, la alegría de editar podcasts
Ver originalResponder0
MempoolSparrow
· hace16h
WebSocket transmisión en tiempo real 0.2 dólares/hora, ¿es más barato o más caro que Whisper?
Ver originalResponder0
GateUser-b6d80ba0
· hace16h
El servicio de atención al cliente de Starlink ya está en uso, no es de extrañar que la última vez que llamé pareciera que la otra parte era una IA
Ver originalResponder0
AirdropMileCounter
· hace16h
¿Cobertura de más de 25 idiomas, cómo es el rendimiento en chino, alguien lo ha probado?
Ver originalResponder0
ReflectiveChainShadow
· hace16h
La misma pila de audio conecta el sistema de vehículos + satélites + chat, esta ecosistema de xAI tiene algo interesante.
Ver originalResponder0
MintAfterCoffee
· hace16h
¿Qué es la tecnología avanzada de normalización de texto invertido? ¿Alguien que entienda puede explicarlo?
Ver originalResponder0