ME News Noticias, 18 de abril (UTC+8), según Beating de Monitoreo de Dongcha, xAI ha lanzado dos API de audio independientes: Grok Speech to Text y Grok Text to Speech. Ambos provienen de la misma pila de audio que soporta Grok Voice, el sistema de infoentretenimiento de Tesla y el servicio al cliente de Starlink, y ahora están disponibles en forma de endpoints independientes, permitiendo a los desarrolladores acceder directamente a agentes de voz, transcripción en tiempo real, herramientas de accesibilidad y podcasts. STT ofrece dos modos. La API REST se usa para transcribir en lote archivos de audio grandes, con respuesta en milisegundos; la API WebSocket está orientada a flujos de voz en tiempo real. Las capacidades adicionales incluyen marcas de tiempo a nivel de palabra, separación de hablantes (diarización), reconocimiento en múltiples canales y Normalización Inversa de Texto, que convierte automáticamente números, fechas y monedas en textos estructurados y normalizados en el habla. Soporta más de 25 idiomas, con cambio fluido en las conversaciones. xAI también publicó una comparación de tasas de error de palabras (WER, cuanto menor mejor): en escenarios generales, Grok 6.9%, ElevenLabs 9.0%, Deepgram 11.0%, AssemblyAI 12.9%; la diferencia en la «reconocimiento de entidades en llamadas telefónicas» es aún mayor, Grok 5.0%, en comparación con 12.0%, 13.5% y 21.3% de las otras tres. En escenarios comunes como reuniones, podcasts en video y llamadas telefónicas, Grok también lidera ligeramente. Estas cifras fueron publicadas por xAI tras pruebas internas, sin verificaciones de terceros. En cuanto a precios, STT por lotes cuesta 0.10 dólares por hora, en streaming 0.20 dólares por hora; TTS cuesta 4.20 dólares por cada millón de caracteres. TTS soporta control de emociones y entonación mediante etiquetas de discurso en línea, como \[laugh\], \[sigh\], \[whisper\], (Fuente: BlockBeats).

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

12 me gusta

Recompensa
12
5
Republicar
Compartir

Comentar

Añadir un comentario

Post-RainTvl

· hace5h

El movimiento de Musk es grande, la infraestructura de xAI se está desarrollando más rápido de lo que se imaginaba

Ver originalResponder0

TacoTreasury

· hace8h

Grok en el área de voz tiene una estructura bastante profunda, tanto en vehículos como en atención al cliente satelital usan el mismo sistema, la estabilidad debería ser buena.

Ver originalResponder0

GateUser-7cb48814

· hace9h

Transcripción en tiempo real por WebSocket, lista para usar en escenarios de subtítulos en vivo

Ver originalResponder0

TheProphetOfToast

· hace9h

El sistema de infoentretenimiento de Tesla es del mismo origen, por lo que el ecosistema de interacción por voz del sistema de vehículo podría estar vinculado.

Ver originalResponder0

GateUser-e4fb1fbe

· hace9h

El mismo conjunto de pila de audio soporta tantos escenarios, la reutilización del proyecto está bien hecha.

Ver originalResponder0

Temas de actualidad
Ver más
#
StockTradingChallengeUpTo17000U
16.23M Popularidad
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
817.54K Popularidad
#
IsraelStrikesIranBTCPlunges
49.57K Popularidad
#
GatePredictionMarketAddsSmartMoneyTracking
13.2M Popularidad
#
MicronMarketCapBreaks1Trillion
36.87K Popularidad

Fijado

xAI abre API de audio Grok STT y TTS, reduciendo la tasa de error total de palabras en STT a 6.9%

Temas de actualidad

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

Fijado