xAI abre API de audio Grok STT y TTS, reduciendo la tasa de error general de palabras en STT a 6.9%

robot
Generación de resúmenes en curso
ME News Noticias, 18 de abril (UTC+8), según Beating de Monitoreo de Dongcha, xAI ha lanzado dos API de audio independientes: Grok Speech to Text y Grok Text to Speech. Ambos provienen de la misma pila de audio que soporta Grok Voice, el sistema de infoentretenimiento de Tesla y el servicio al cliente de Starlink, y ahora están disponibles en forma de endpoints independientes, permitiendo a los desarrolladores acceder directamente a agentes de voz, transcripción en tiempo real, herramientas de accesibilidad y podcasts. STT ofrece dos modos. La API REST se usa para transcribir en lote archivos de audio grandes, con respuesta en milisegundos; la API WebSocket está orientada a flujos de voz en tiempo real. Las capacidades adicionales incluyen marcas de tiempo a nivel de palabra, separación de hablantes (diarización), reconocimiento en múltiples canales y Normalización de Texto Inversa, que convierte automáticamente números, fechas y monedas en textos estructurados y normalizados en el habla. Soporta más de 25 idiomas, con cambio fluido en las conversaciones. xAI también publicó una comparación de tasas de error de palabras (WER, cuanto menor mejor): en escenarios generales, Grok 6.9%, ElevenLabs 9.0%, Deepgram 11.0%, AssemblyAI 12.9%; la diferencia en la «reconocimiento de entidades en llamadas telefónicas» es aún mayor, Grok 5.0%, en comparación con las otras tres: 12.0%, 13.5%, 21.3%. En escenarios comunes como reuniones, podcasts en video y llamadas telefónicas, Grok también lidera ligeramente. Estas cifras fueron publicadas por xAI tras pruebas internas, sin verificaciones de terceros. En cuanto a precios, STT por lotes cuesta 0.10 dólares por hora, en streaming 0.20 dólares por hora; TTS cuesta 4.20 dólares por cada millón de caracteres. TTS soporta control de emociones y entonación mediante etiquetas de discurso en línea, como \[laugh\], \[sigh\], \[whisper\], \ (Fuente: BlockBeats)
XAI-1,74%
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 6
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
SudoSatoshi
· hace3h
Cobertura multilingüe de más de 25+, pero ¿qué pasa con la calidad de las lenguas minoritarias?
El promedio de WER se ve bien, pero los idiomas de cola larga todavía podrían ser un desastre.
Ver originalResponder0
AirdropUnderTheNeonBridge
· hace3h
¿Etiquetas internas de emoción y ritmo? TTS finalmente ya no es una máquina que lee guiones, ahora puede hacer que los audiolibros o diálogos de NPC en juegos sean más creativos.
Ver originalResponder0
AirdropCartographer
· hace3h
Multicanalidad + separación de hablantes, herramienta para transcribir grabaciones de reuniones, pero con un costo de transmisión de 0.2 dólares por hora, incluso para reuniones largas no es barato.
Ver originalResponder0
PerpPulse
· hace3h
Grok Voice, Tesla en el coche, Starlink atención al cliente usan la misma pila de audio, Elon Musk está perfeccionando cada vez más este ciclo ecológico.
Ver originalResponder0
MintLaterMaybe
· hace3h
¿ Qué es la normalización de texto invertido ? ¿ Convertir números a dígitos árabes ? Esta función es bastante clave para el procesamiento posterior de la transcripción de voz, para no tener que escribir expresiones regulares por uno mismo.
Ver originalResponder0
CliffsideAncientPineAndRolling
· hace3h
xAI esta serie de API de audio está siendo bastante agresiva, STT en streaming a 0.2 dólares por hora, TTS a 4.2 dólares por millón de caracteres, la estrategia de precios claramente apunta a un uso comercial a gran escala.
Ver originalResponder0