xAI abre API de audio Grok STT y TTS, reduciendo la tasa de error total de palabras en STT a 6.9%

robot
Generación de resúmenes en curso
ME 新闻 消息,4 月 18 日(UTC+8),据 动察 Beating 监测,xAI 上线两个独立音频 API:Grok Speech to Text 和 Grok Text to Speech。两者来自支撑 Grok Voice、特斯拉车载系统和 Starlink 客服的同一套音频栈,此次以独立 endpoint 形式开放,开发者可直接接入语音代理、实时转录、无障碍工具和播客等应用。 STT 提供两种模式。REST API 用于对大音频文件批量转录,毫秒级返回;WebSocket API 面向实时语音流。附带能力包括词级时间戳、说话人分离(diarization)、多通道分别识别,以及反向文本归一化,即把口语里的数字、日期、货币自动整形为规范的结构化文本。语种覆盖 25 种以上,可在对话中无缝切换。 xAI 同时公布一组词错率(WER,数值越低越好)对比:整体场景 Grok 6.9%,ElevenLabs 9.0%,Deepgram 11.0%,AssemblyAI 12.9%;「电话通话实体识别」差距被拉得更大,Grok 5.0%,对应三家分别为 12.0%、13.5%、21.3%。会议、视频播客、电话三类常见业务场景下 Grok 也都小幅领先。这组数字由 xAI 自行测试公布,尚无第三方复测。 定价上,STT 批处理 0.10 美元/小时、流式 0.20 美元/小时;TTS 为 4.20 美元/100 万字符。 TTS 支持用内联语音标签控制情感和韵律,例如 \[laugh]\、\[sigh]\、\[whisper]\、\ (来源:BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 10
  • 3
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
InstantNoodle-LevelResearcher
· hace4h
La transcripción en lote usa REST, y en tiempo real usa WebSocket, el diseño de la arquitectura es bastante práctico.
Ver originalResponder0
GateUser-f85bc167
· hace4h
Espera una puntuación real, solo mira el benchmark de xAI.
Ver originalResponder0
MarginMom
· hace4h
Grok TTS admite etiquetas emocionales, lo cual es interesante, ¿podría la narración por IA incluir tono lloroso en el futuro?
Ver originalResponder0
GateUser-f92ba9fa
· hace4h
¿Alguien ha probado cómo funciona en chino con más de 25 idiomas cubiertos?
Ver originalResponder0
Lightning-FastComposure
· hace4h
¿Qué es la tecnología avanzada de normalización de texto invertido? ¿Alguien que entienda puede explicarlo?
Ver originalResponder0
HaiyanColdWallet
· hace4h
Marcado de tiempo a nivel de palabra + separación de hablantes, ¡los registros de reuniones están encantados!
Ver originalResponder0
QuantsAndCats
· hace5h
¿La TTS de 4.2 dólares por millón de caracteres es más barata o más cara que ElevenLabs?
Ver originalResponder0
AmberTeaSwirl
· hace5h
Transcripción de voz en flujo 0.2 dólares/hora, el escenario de subtítulos en tiempo real debería poder funcionar
Ver originalResponder0
MultisigOnRocks
· hace5h
La misma pila de audio alimentada a Grok Voice, Tesla y Starlink, Elon Musk ha cerrado el ciclo ecológico.
Ver originalResponder0
BalanceScreenshotAfterTheRain
· hace5h
xAI, esta ola de API de audio llegó un poco de repente, ¿es razonable que el precio de STT sea 0.1 dólares por hora?
Ver originalResponder0
Ver más