xAI abre la API de audio Grok STT y TTS, reduciendo la tasa de error de palabras en general de STT a 6.9%

robot
Generación de resúmenes en curso
NOTICIAS ME, 18 de abril (UTC+8), según la monitorización de Dòngchá Beating, xAI ha lanzado dos API de audio independientes: Grok Speech to Text y Grok Text to Speech. Ambos provienen de la misma pila de audio que soporta Grok Voice, el sistema de infoentretenimiento de Tesla y el servicio al cliente de Starlink, y ahora se ofrecen en forma de endpoints independientes, permitiendo a los desarrolladores acceder directamente a agentes de voz, transcripción en tiempo real, herramientas de accesibilidad y podcasts. STT ofrece dos modos. La API REST se usa para transcribir en lote archivos de audio grandes, con respuesta en milisegundos; la API WebSocket está orientada a flujos de voz en tiempo real. Las capacidades adicionales incluyen marcas de tiempo a nivel de palabra, separación de hablantes (diarización), reconocimiento en múltiples canales y Normalización de Texto Inversa, que convierte automáticamente números, fechas y monedas en textos estructurados y normalizados en el habla. Soporta más de 25 idiomas, con cambio fluido en las conversaciones. xAI también publicó una comparación de tasas de error de palabras (WER, cuanto menor mejor): en escenarios generales, Grok 6.9%, ElevenLabs 9.0%, Deepgram 11.0%, AssemblyAI 12.9%; la diferencia en la «reconocimiento de entidades en llamadas telefónicas» es aún mayor, Grok 5.0%, en comparación con 12.0%, 13.5% y 21.3% de las otras tres. En escenarios comunes como reuniones, podcasts en video y llamadas telefónicas, Grok también lidera ligeramente. Estas cifras fueron publicadas por xAI tras pruebas internas, sin verificaciones de terceros. En cuanto a precios, STT por lotes cuesta 0.10 dólares por hora, en streaming 0.20 dólares por hora; TTS cuesta 4.20 dólares por cada millón de caracteres. TTS soporta control de emociones y entonación mediante etiquetas de discurso en línea, como \[laugh\], \[sigh\], \[whisper\], \ (Fuente: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 12
  • 1
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
WhitepaperByTheRoadside
· Hace42m
Marcadores de tiempo a nivel de palabra + separación de hablantes, en escenarios de actas de reuniones esto va a volverse loco
Ver originalResponder0
Lime-ColoredStop-LossLine
· hace12h
Procesamiento por lotes 0.1 dólares/hora, realmente atractivo, pero con precios en aumento por flujo, claramente te empuja a optar por volumen
Ver originalResponder0
GateUser-83a2dd8a
· hace12h
¿Alguien ha probado cómo funciona el efecto en chino con una cobertura de más de 25 idiomas?
Ver originalResponder0
TheProphetOfToast
· hace13h
Etiquetas en línea de ritmo emocional, finalmente ya no tengo que escuchar a los robots leer los guiones
Ver originalResponder0
GateUser-b665e41c
· hace14h
Integración del sistema de infoentretenimiento de Tesla, ¿cuál es la latencia en milisegundos del retraso en la interacción por voz mientras conduce?
Ver originalResponder0
PunkRiskMgr
· hace14h
El servicio de atención al cliente de Starlink ya está en uso, las áreas rurales con acento se reconocen como un tesoro de datos de entrenamiento
Ver originalResponder0
ToBeHonest,You'llLose
· hace15h
De la ola de LLM a la voz, la guerra multimodal entra oficialmente en la segunda mitad
Ver originalResponder0
HashbrownHero
· hace15h
La transcripción masiva de estos precios, los grupos de subtítulos y los anfitriones de podcasts probablemente tendrán que migrar colectivamente
Ver originalResponder0
GateUser-bee672a5
· hace15h
Espera a que una comunidad de código abierto reproduzca WER, la referencia de xAI, generalmente primero cuestionan
Ver originalResponder0
TwoFactorZen
· hace15h
REST + modo dual de WebSocket, máxima facilidad para desarrolladores
Ver originalResponder0
Ver más