ME News Noticias, 18 de abril (UTC+8), según Beating de Monitoreo de Dongcha, xAI ha lanzado dos API de audio independientes: Grok Speech to Text y Grok Text to Speech. Ambos provienen de la misma pila de audio que soporta Grok Voice, el sistema de infoentretenimiento de Tesla y el servicio al cliente de Starlink, y ahora están disponibles en forma de endpoints independientes, permitiendo a los desarrolladores acceder directamente a agentes de voz, transcripción en tiempo real, herramientas de accesibilidad y podcasts. STT ofrece dos modos. La API REST se usa para transcribir en lote archivos de audio grandes, con respuesta en milisegundos; la API WebSocket está orientada a flujos de voz en tiempo real. Las capacidades adicionales incluyen marcas de tiempo a nivel de palabra, separación de hablantes (diarización), reconocimiento en múltiples canales y Normalización de Texto Inversa, que convierte automáticamente números, fechas y monedas en textos estructurados y normalizados en el habla. Soporta más de 25 idiomas, con cambio fluido en las conversaciones. xAI también publicó una comparación de tasas de error de palabras (WER, cuanto menor mejor): en escenarios generales, Grok 6.9%, ElevenLabs 9.0%, Deepgram 11.0%, AssemblyAI 12.9%; la diferencia en la «reconocimiento de entidades en llamadas telefónicas» es aún mayor, Grok 5.0%, en comparación con las otras tres: 12.0%, 13.5%, 21.3%. En escenarios comunes como reuniones, podcasts en video y llamadas telefónicas, Grok también lidera ligeramente. Estas cifras fueron publicadas por xAI tras pruebas internas, sin verificaciones de terceros. En cuanto a precios, STT por lotes cuesta 0.10 dólares por hora, en streaming 0.20 dólares por hora; TTS cuesta 4.20 dólares por cada millón de caracteres. TTS soporta control de emociones y entonación mediante etiquetas de discurso en línea, como \[laugh\], \[sigh\], \[whisper\], \ (Fuente: BlockBeats)

XAI-1,74%

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

10 me gusta

Recompensa
10
6
Republicar
Compartir

Comentar

Añadir un comentario

SudoSatoshi

· hace3h

Cobertura multilingüe de más de 25+, pero ¿qué pasa con la calidad de las lenguas minoritarias?
El promedio de WER se ve bien, pero los idiomas de cola larga todavía podrían ser un desastre.

Ver originalResponder0

AirdropUnderTheNeonBridge

· hace3h

¿Etiquetas internas de emoción y ritmo? TTS finalmente ya no es una máquina que lee guiones, ahora puede hacer que los audiolibros o diálogos de NPC en juegos sean más creativos.

Ver originalResponder0

AirdropCartographer

· hace3h

Multicanalidad + separación de hablantes, herramienta para transcribir grabaciones de reuniones, pero con un costo de transmisión de 0.2 dólares por hora, incluso para reuniones largas no es barato.

Ver originalResponder0

PerpPulse

· hace3h

Grok Voice, Tesla en el coche, Starlink atención al cliente usan la misma pila de audio, Elon Musk está perfeccionando cada vez más este ciclo ecológico.

Ver originalResponder0

MintLaterMaybe

· hace3h

¿ Qué es la normalización de texto invertido ? ¿ Convertir números a dígitos árabes ? Esta función es bastante clave para el procesamiento posterior de la transcripción de voz, para no tener que escribir expresiones regulares por uno mismo.

Ver originalResponder0

CliffsideAncientPineAndRolling

· hace3h

xAI esta serie de API de audio está siendo bastante agresiva, STT en streaming a 0.2 dólares por hora, TTS a 4.2 dólares por millón de caracteres, la estrategia de precios claramente apunta a un uso comercial a gran escala.

Ver originalResponder0

Temas de actualidad
Ver más
#
StockTradingChallengeUpTo17000U
16.22M Popularidad
#
USStrikesIran
9.31M Popularidad
#
IsraelStrikesIranBTCPlunges
49.49K Popularidad
#
GatePredictionMarketAddsSmartMoneyTracking
13.8M Popularidad
#
InstitutionalCapitalRotatesFromBTCToHYPEAndXRP
14.33M Popularidad

Fijado

xAI abre API de audio Grok STT y TTS, reduciendo la tasa de error general de palabras en STT a 6.9%

Temas de actualidad

StockTradingChallengeUpTo17000U

USStrikesIran

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

InstitutionalCapitalRotatesFromBTCToHYPEAndXRP

Fijado