xAI lanza la API de conversión de voz a texto y de texto a voz Grok

robot
Generación de resúmenes en curso
ME News Noticias, 18 de abril (UTC+8), xAI anunció recientemente el lanzamiento oficial de dos APIs de audio independientes: Grok de reconocimiento de voz a texto (STT) y Grok de texto a voz (TTS). Grok STT ofrece servicios de transcripción con alta precisión y baja latencia, soporta procesamiento en lote mediante API REST y transcripción en flujo en tiempo real mediante API WebSocket, y cuenta con marcas de tiempo a nivel de palabra, separación de hablantes, soporte multicanal y funciones inteligentes de normalización inversa de texto. En el artículo se menciona que, en pruebas de referencia en campos como llamadas telefónicas, reuniones, videos/podcasts, su tasa de error de palabras supera a modelos comerciales principales como ElevenLabs, Deepgram y AssemblyAI. Este servicio soporta más de 25 idiomas, con un precio de 0.10 dólares por hora para procesamiento en lote y 0.20 dólares por hora para procesamiento en flujo. Grok TTS puede generar voces rápidas, naturales y expresivas, soporta control granular mediante etiquetas de voz simples, y tiene un precio de 4.20 dólares por cada 1 millón de caracteres. Ambas APIs están basadas en la misma pila tecnológica que impulsa Grok Voice, los vehículos de Tesla y el soporte al cliente de Starlink. (Fuente: InFoQ)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 5
  • 2
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Mint-ColoredCalmness
· hace6h
¿La función de voz del sistema de Tesla se va a actualizar? También se puede usar Starlink, es interesante
Ver originalResponder0
SummerNightColdWallet
· hace6h
¿ Qué es la tecnología avanzada de normalización inversa de texto, procesamiento automático de números a texto?
Ver originalResponder0
NekoValidator
· hace6h
0.1 dólares/hora precio por volumen, más de 25 idiomas, esta vez Whisper va a arrasar
Ver originalResponder0
Cream-ColoredCross-ChainBridge
· hace7h
REST en modo batch + flujo WebSocket en doble modo, máxima facilidad para desarrolladores
Ver originalResponder0
GateUser-deff9ed8
· hace7h
xAI comienza a vender API, ciclo cerrado del ecosistema de Musk +1
Ver originalResponder0
  • Fijado