NOTICIAS ME, 18 de abril (UTC+8), según la monitorización de Dòngchá Beating, xAI ha lanzado dos API de audio independientes: Grok Speech to Text y Grok Text to Speech. Ambos provienen de la misma pila de audio que soporta Grok Voice, el sistema de infoentretenimiento de Tesla y el servicio al cliente de Starlink, y ahora se ofrecen en forma de endpoints independientes, permitiendo a los desarrolladores acceder directamente a agentes de voz, transcripción en tiempo real, herramientas de accesibilidad y podcasts. STT ofrece dos modos. La API REST se usa para transcribir en lote archivos de audio grandes, con respuesta en milisegundos; la API WebSocket está orientada a flujos de voz en tiempo real. Las capacidades adicionales incluyen marcas de tiempo a nivel de palabra, separación de hablantes (diarización), reconocimiento en múltiples canales y Normalización de Texto Inversa, que convierte automáticamente números, fechas y monedas en texto estructurado y normalizado. Soporta más de 25 idiomas, con cambio fluido en las conversaciones. xAI también publicó una comparación de tasas de error de palabras (WER, cuanto menor mejor): en escenarios generales, Grok 6.9%, ElevenLabs 9.0%, Deepgram 11.0%, AssemblyAI 12.9%; la diferencia en la «reconocimiento de entidades en llamadas telefónicas» es aún mayor, Grok 5.0%, en comparación con las otras tres: 12.0%, 13.5%, 21.3%. En escenarios comunes como reuniones, podcasts en video y llamadas telefónicas, Grok también lidera ligeramente. Estos datos fueron publicados por xAI tras pruebas internas, sin verificación por terceros. En cuanto a precios, STT por lotes cuesta 0.10 dólares por hora, en streaming 0.20 dólares por hora; TTS cuesta 4.20 dólares por cada millón de caracteres. TTS soporta control de emociones y entonación mediante etiquetas de discurso en línea, como \[laugh\], \[sigh\], \[whisper\], (Fuente: BlockBeats).

XAI1,48%

GROK-5,89%

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

7 me gusta

Recompensa
7
7
Republicar
Compartir

Comentar

Añadir un comentario

BudgetValidator

· hace2h

La infraestructura de voz comienza a estandarizarse, beneficiando a los desarrolladores pequeños y medianos

Ver originalResponder0

MirrorBallGazingAtTheSky

· hace4h

El mismo conjunto de pila soporta tres escenarios, Elon Musk juega con la reutilización a lo grande.

Ver originalResponder0

AirdropSidequest

· hace5h

WebSocket es adecuado para transmisión en flujo, REST es adecuado para archivado, diseño razonable

Ver originalResponder0

CandlewickKid

· hace9h

xAI finalmente ha separado la pila de voz, los desarrolladores están eufóricos

Ver originalResponder0

RetroRadioSignal

· hace10h

Grok's STT ha implementado un modo dual de REST + WebSocket, cubriendo tanto en lote como en tiempo real, bastante detallado.

Ver originalResponder0

PatinaTradingBell

· hace10h

La pila de audio que utilizan Tesla y Starlink debería haber pasado la prueba de fiabilidad.

Ver originalResponder0

OracleBabysitter

· hace10h

Herramientas de accesibilidad +1, así es como la tecnología debe tener calidez

Ver originalResponder0

Temas de actualidad
Ver más
#
StockTradingChallengeUpTo17000U
16.23M Popularidad
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
819.07K Popularidad
#
IsraelStrikesIranBTCPlunges
49.57K Popularidad
#
GatePredictionMarketAddsSmartMoneyTracking
13.77M Popularidad
#
MicronMarketCapBreaks1Trillion
37.9K Popularidad

Fijado

xAI abre API de audio Grok STT y TTS, reduciendo la tasa de error total de palabras en STT a 6.9%

Temas de actualidad

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

Fijado