xAI abre API de audio Grok STT y TTS, reduciendo la tasa de error total de palabras en STT a 6.9%

robot
Generación de resúmenes en curso
ME News Noticias, 18 de abril (UTC+8), según Beating de Monitoreo de Dongcha, xAI ha lanzado dos API de audio independientes: Grok Speech to Text y Grok Text to Speech. Ambos provienen de la misma pila de audio que soporta Grok Voice, el sistema de infoentretenimiento de Tesla y el servicio al cliente de Starlink, y ahora están disponibles en forma de endpoints independientes, permitiendo a los desarrolladores acceder directamente a agentes de voz, transcripción en tiempo real, herramientas de accesibilidad y podcasts. STT ofrece dos modos. La API REST se usa para transcribir en lote archivos de audio grandes, con respuesta en milisegundos; la API WebSocket está orientada a flujos de voz en tiempo real. Las capacidades adicionales incluyen marcas de tiempo a nivel de palabra, separación de hablantes (diarización), reconocimiento en canales múltiples y Normalización de Texto Inversa, que convierte automáticamente números, fechas y monedas en textos estructurados y normalizados en el habla. Soporta más de 25 idiomas, con cambio fluido en las conversaciones. xAI también publicó una comparación de tasas de error de palabras (WER, cuanto menor mejor): en escenarios generales, Grok 6.9%, ElevenLabs 9.0%, Deepgram 11.0%, AssemblyAI 12.9%; la diferencia en la «reconocimiento de entidades en llamadas telefónicas» es aún mayor, Grok 5.0%, en comparación con 12.0%, 13.5% y 21.3% de las otras tres. En escenarios comunes como reuniones, podcasts en video y llamadas telefónicas, Grok también lidera ligeramente. Estos números fueron publicados por pruebas internas de xAI, sin verificación por terceros. En cuanto a precios, el procesamiento por lotes de STT cuesta 0.10 dólares por hora, y en streaming 0.20 dólares por hora; TTS cuesta 4.20 dólares por cada millón de caracteres. TTS soporta control de emociones y entonación mediante etiquetas de habla en línea, como \[laugh\], \[sigh\], \[whisper\], y \. (Fuente: BlockBeats)
XAI2,11%
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 4
  • 2
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
TwoFactorZen
· hace5h
WebSocket transmisión en tiempo real 0.2 dólares/hora, hermanos que hacen subtítulos en vivo, pueden hacer cuentas
Ver originalResponder0
Frost-ColoredCubeCity
· hace8h
El precio de procesamiento por lotes está bien, pero la estrategia de precios por flujo que se duplica claramente te obliga a optar por volumen, es una vieja táctica.
Ver originalResponder0
GateUser-517aed04
· hace8h
La misma pila se entrega a la máquina de Tesla + servicio al cliente de Starlink, Elon Musk maneja muy bien este ciclo cerrado.
Ver originalResponder0
GateUser-b6d80ba0
· hace8h
WER lidera hablando por sí mismo, sin esperar una segunda prueba de terceros, los viejos expertos en cripto lo entienden
Ver originalResponder0