xAI abre API de audio Grok STT y TTS, reduciendo la tasa de error total de palabras en STT a 6.9%

robot
Generación de resúmenes en curso
ME 新闻 消息,4 月 18 日(UTC+8),据 动察 Beating 监测,xAI 上线两个独立音频 API:Grok Speech to Text 和 Grok Text to Speech。两者来自支撑 Grok Voice、特斯拉车载系统和 Starlink 客服的同一套音频栈,此次以独立 endpoint 形式开放,开发者可直接接入语音代理、实时转录、无障碍工具和播客等应用。 STT 提供两种模式。REST API 用于对大音频文件批量转录,毫秒级返回;WebSocket API 面向实时语音流。附带能力包括词级时间戳、说话人分离(diarization)、多通道分别识别,以及 Inverse Text Normalization,即把口语里的数字、日期、货币自动整形为规范的结构化文本。语种覆盖 25 种以上,可在对话中无缝切换。 xAI 同时公布一组词错率(WER,数值越低越好)对比:整体场景 Grok 6.9%,ElevenLabs 9.0%,Deepgram 11.0%,AssemblyAI 12.9%;「电话通话实体识别」差距被拉得更大,Grok 5.0%,对应三家分别为 12.0%、13.5%、21.3%。会议、视频播客、电话三类常见业务场景下 Grok 也都小幅领先。这组数字由 xAI 自行测试公布,尚无第三方复测。 定价上,STT 批处理 0.10 美元/小时、流式 0.20 美元/小时;TTS 为 4.20 美元/100 万字符。 TTS 支持用内联 Speech Tags 控制情感和韵律,例如 \[laugh]\、\[sigh]\、\[whisper]\、\ (来源:BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 6
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
GovernanceVotingTug-Of-WarKing
· hace6h
25+ cobertura de idiomas está bien, pero la calidad de las lenguas minoritarias es dudosa, solo sabrás probándolo.
Ver originalResponder0
ViewingBullAndBearMarketsFromA
· hace6h
¿Cuánto tiempo de retardo en milisegundos tiene la transmisión en tiempo real de WebSocket? No lo han mencionado, en escenarios de transmisión en vivo es muy importante.
Ver originalResponder0
BorrowedHalo
· hace6h
¿Las etiquetas emocionales incrustadas permitirán que los podcasts de IA puedan detectar sarcasmo en el futuro?
Ver originalResponder0
PuddingMarketMaker
· hace6h
El servicio de atención al cliente de Starlink ya está en uso, la prueba definitiva del ciclo cerrado del ecosistema de Musk
Ver originalResponder0
GateUser-83c80dd0
· hace7h
Marcadores de tiempo a nivel de palabra + separación de hablantes, ¡la comunidad de edición de podcasts está en éxtasis!
Ver originalResponder0
TideEarningsTable
· hace7h
4.2 millones de caracteres en dólares, ¿es más barato o más caro que ElevenLabs? ¿Alguien lo ha calculado?
Ver originalResponder0