xAI lanza la API de conversión de voz a texto y de texto a voz de Grok

robot
Generación de resúmenes en curso
ME News Noticias, 18 de abril (UTC+8), xAI anunció recientemente el lanzamiento oficial de dos API de audio independientes: Grok de reconocimiento de voz a texto (STT) y Grok de texto a voz (TTS).
Grok STT ofrece servicios de transcripción con alta precisión y baja latencia, soporta procesamiento en lote mediante API REST y transcripción en flujo en tiempo real mediante API WebSocket, y cuenta con funciones de marcas de tiempo a nivel de palabra, separación de hablantes, soporte multicanal y normalización inteligente de texto invertido.
Se menciona que, en pruebas de referencia en campos como llamadas telefónicas, reuniones, videos/podcasts, su tasa de error de palabras supera a modelos comerciales principales como ElevenLabs, Deepgram y AssemblyAI.
El servicio soporta más de 25 idiomas, con un precio de 0.10 dólares por hora para procesamiento en lote y 0.20 dólares por hora para procesamiento en flujo.
Grok TTS puede generar voces rápidas, naturales y expresivas, soporta control granular mediante etiquetas de voz simples, y cuesta 4.20 dólares por cada 1 millón de caracteres.
Ambas API están basadas en la misma pila tecnológica que impulsa Grok Voice, los vehículos Tesla y el soporte al cliente de Starlink. (Fuente: InFoQ)
XAI-2,15%
GROK3,4%
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 7
  • 3
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
RiskParachute
· hace7h
Espera, ¿TTS puede controlar con etiquetas de granularidad fina? ¿Entonces también puede ajustar el tono emocional?
Ver originalResponder0
BitByBitBenny
· hace8h
Marcadores de tiempo a nivel de palabra + separación de hablantes, ¡una herramienta increíble para actas de reuniones, quiero probarlo!
Ver originalResponder0
FrictionlessFred
· hace8h
Grok Voice, Tesla, Starlink comparten una misma pila tecnológica, Elon Musk ha entendido bien este ciclo ecológico cerrado
Ver originalResponder0
GoldfishUnderTheIce
· hace8h
¿¡Qué tecnología avanzada es la normalización inversa de texto, que convierte el lenguaje coloquial en texto estándar!?
Ver originalResponder0
Don'tMessWithSlippage.
· hace8h
¿Se ha probado cómo funciona en chino la cobertura de 25 idiomas?
Ver originalResponder0
YieldBonsai
· hace8h
4.20 dólares por millón de caracteres, ¿este número es intencional, verdad?
Ver originalResponder0
IOnlyTrustOn-ChainData.
· hace8h
xAI esta ola de precios de la API de audio es bastante dura, en lotes 0.1 dólares/hora, parece que va a arrasar con muchos proveedores de ASR.
Ver originalResponder0