NOTICIAS ME, 18 de abril (UTC+8), según la monitorización de Dòngchá Beating, xAI ha lanzado dos API de audio independientes: Grok Speech to Text y Grok Text to Speech. Ambos provienen de la misma pila de audio que soporta Grok Voice, el sistema de infoentretenimiento de Tesla y el servicio al cliente de Starlink, y ahora se ofrecen en forma de endpoints independientes, permitiendo a los desarrolladores acceder directamente a agentes de voz, transcripción en tiempo real, herramientas de accesibilidad y podcasts. STT ofrece dos modos. La API REST se usa para transcribir en lote archivos de audio grandes, con respuesta en milisegundos; la API WebSocket está orientada a flujos de voz en tiempo real. Las capacidades adicionales incluyen marcas de tiempo a nivel de palabra, separación de hablantes (diarización), reconocimiento en múltiples canales y Normalización de Texto Inversa, que convierte automáticamente números, fechas y monedas en textos estructurados y normalizados en el habla. Soporta más de 25 idiomas, con cambio fluido en las conversaciones. xAI también publicó una comparación de tasas de error de palabras (WER, cuanto menor mejor): en escenarios generales, Grok 6.9%, ElevenLabs 9.0%, Deepgram 11.0%, AssemblyAI 12.9%; la diferencia en la «reconocimiento de entidades en llamadas telefónicas» es aún mayor, Grok 5.0%, en comparación con 12.0%, 13.5% y 21.3% de las otras tres. En escenarios comunes como reuniones, podcasts en video y llamadas telefónicas, Grok también lidera ligeramente. Estas cifras fueron publicadas por xAI tras pruebas internas, sin verificaciones de terceros. En cuanto a precios, STT por lotes cuesta 0.10 dólares por hora, en streaming 0.20 dólares por hora; TTS cuesta 4.20 dólares por cada millón de caracteres. TTS soporta control de emociones y entonación mediante etiquetas de discurso en línea, como \[laugh\], \[sigh\], \[whisper\], \ (Fuente: BlockBeats)

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

11 me gusta

Recompensa
11
12
1
Compartir

Comentar

Añadir un comentario

WhitepaperByTheRoadside

· Hace42m

Marcadores de tiempo a nivel de palabra + separación de hablantes, en escenarios de actas de reuniones esto va a volverse loco

Ver originalResponder0

Lime-ColoredStop-LossLine

· hace12h

Procesamiento por lotes 0.1 dólares/hora, realmente atractivo, pero con precios en aumento por flujo, claramente te empuja a optar por volumen

Ver originalResponder0

GateUser-83a2dd8a

· hace12h

¿Alguien ha probado cómo funciona el efecto en chino con una cobertura de más de 25 idiomas?

Ver originalResponder0

TheProphetOfToast

· hace13h

Etiquetas en línea de ritmo emocional, finalmente ya no tengo que escuchar a los robots leer los guiones

Ver originalResponder0

GateUser-b665e41c

· hace14h

Integración del sistema de infoentretenimiento de Tesla, ¿cuál es la latencia en milisegundos del retraso en la interacción por voz mientras conduce?

Ver originalResponder0

PunkRiskMgr

· hace14h

El servicio de atención al cliente de Starlink ya está en uso, las áreas rurales con acento se reconocen como un tesoro de datos de entrenamiento

Ver originalResponder0

ToBeHonest,You'llLose

· hace15h

De la ola de LLM a la voz, la guerra multimodal entra oficialmente en la segunda mitad

Ver originalResponder0

HashbrownHero

· hace15h

La transcripción masiva de estos precios, los grupos de subtítulos y los anfitriones de podcasts probablemente tendrán que migrar colectivamente

Ver originalResponder0

GateUser-bee672a5

· hace15h

Espera a que una comunidad de código abierto reproduzca WER, la referencia de xAI, generalmente primero cuestionan

Ver originalResponder0

TwoFactorZen

· hace15h

REST + modo dual de WebSocket, máxima facilidad para desarrolladores

Ver originalResponder0

Temas de actualidad
Ver más
#
StockTradingChallengeUpTo17000U
16.02M Popularidad
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
833.58K Popularidad
#
IsraelStrikesIranBTCPlunges
49.81K Popularidad
#
GatePredictionMarketAddsSmartMoneyTracking
13.25M Popularidad
#
MicronMarketCapBreaks1Trillion
45.88K Popularidad

Fijado

xAI abre la API de audio Grok STT y TTS, reduciendo la tasa de error de palabras en general de STT a 6.9%

Temas de actualidad

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

Fijado