xAI abre API de audio Grok STT y TTS, reduciendo la tasa de error total de palabras en STT a 6.9%

NOTICIAS ME, 18 de abril (UTC+8), según la monitorización de Dòngchá Beating, xAI ha lanzado dos API de audio independientes: Grok Speech to Text y Grok Text to Speech. Ambos provienen de la misma pila de audio que soporta Grok Voice, el sistema de infoentretenimiento de Tesla y el servicio al cliente de Starlink, y ahora se ofrecen en forma de endpoints independientes, permitiendo a los desarrolladores acceder directamente a agentes de voz, transcripción en tiempo real, herramientas de accesibilidad y podcasts. STT ofrece dos modos. La API REST se usa para transcribir en lote archivos de audio grandes, con respuesta en milisegundos; la API WebSocket está orientada a flujos de voz en tiempo real. Las capacidades adicionales incluyen marcas de tiempo a nivel de palabra, separación de hablantes (diarización), reconocimiento en múltiples canales y Normalización de Texto Inversa, que convierte automáticamente números, fechas y monedas en texto estructurado y normalizado. Soporta más de 25 idiomas, con cambio fluido en las conversaciones. xAI también publicó una comparación de tasas de error de palabras (WER, cuanto menor mejor): en escenarios generales, Grok 6.9%, ElevenLabs 9.0%, Deepgram 11.0%, AssemblyAI 12.9%; la diferencia en la «reconocimiento de entidades en llamadas telefónicas» es aún mayor, Grok 5.0%, en comparación con las otras tres: 12.0%, 13.5%, 21.3%. En escenarios comunes como reuniones, podcasts en video y llamadas telefónicas, Grok también lidera ligeramente. Estos datos fueron publicados por xAI tras pruebas internas, sin verificación por terceros. En cuanto a precios, STT por lotes cuesta 0.10 dólares por hora, en streaming 0.20 dólares por hora; TTS cuesta 4.20 dólares por cada millón de caracteres. TTS soporta control de emociones y entonación mediante etiquetas de discurso en línea, como \[laugh\], \[sigh\], \[whisper\], (Fuente: BlockBeats).
XAI1,48%
GROK-5,89%
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 7
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
BudgetValidator
· hace2h
La infraestructura de voz comienza a estandarizarse, beneficiando a los desarrolladores pequeños y medianos
Ver originalResponder0
MirrorBallGazingAtTheSky
· hace4h
El mismo conjunto de pila soporta tres escenarios, Elon Musk juega con la reutilización a lo grande.
Ver originalResponder0
AirdropSidequest
· hace5h
WebSocket es adecuado para transmisión en flujo, REST es adecuado para archivado, diseño razonable
Ver originalResponder0
CandlewickKid
· hace9h
xAI finalmente ha separado la pila de voz, los desarrolladores están eufóricos
Ver originalResponder0
RetroRadioSignal
· hace10h
Grok's STT ha implementado un modo dual de REST + WebSocket, cubriendo tanto en lote como en tiempo real, bastante detallado.
Ver originalResponder0
PatinaTradingBell
· hace10h
La pila de audio que utilizan Tesla y Starlink debería haber pasado la prueba de fiabilidad.
Ver originalResponder0
OracleBabysitter
· hace10h
Herramientas de accesibilidad +1, así es como la tecnología debe tener calidez
Ver originalResponder0