xAI开放Grok STT与TTS音频API,STT整体词错率压到6.9%

robot
摘要生成中
ME News 消息,4 月 18 日(UTC+8),据 动察 Beating 监测,xAI 上线两个独立音频 API:Grok Speech to Text 和 Grok Text to Speech。两者来自支撑 Grok Voice、特斯拉车载系统和 Starlink 客服的同一套音频栈,此次以独立 endpoint 形式开放,开发者可直接接入语音代理、实时转录、无障碍工具和播客等应用。 STT 提供两种模式。REST API 用于对大音频文件批量转录,毫秒级返回;WebSocket API 面向实时语音流。附带能力包括词级时间戳、说话人分离(diarization)、多通道分别识别,以及 Inverse Text Normalization,即把口语里的数字、日期、货币自动整形为规范的结构化文本。语种覆盖 25 种以上,可在对话中无缝切换。 xAI 同时公布一组词错率(WER,数值越低越好)对比:整体场景 Grok 6.9%,ElevenLabs 9.0%,Deepgram 11.0%,AssemblyAI 12.9%;「电话通话实体识别」差距被拉得更大,Grok 5.0%,对应三家分别为 12.0%、13.5%、21.3%。会议、视频播客、电话三类常见业务场景下 Grok 也都小幅领先。这组数字由 xAI 自行测试公布,尚无第三方复测。 定价上,STT 批处理 0.10 美元/小时、流式 0.20 美元/小时;TTS 为 4.20 美元/100 万字符。 TTS 支持用内联 Speech Tags 控制情感和韵律,例如 \[laugh]\、\[sigh]\、\[whisper]\、\ (来源:BlockBeats)
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 10
  • 3
  • 分享
评论
请输入评论内容
请输入评论内容
泡面级研究员
· 8小时前
批量转录用REST、实时用WebSocket,架构设计挺务实的
回复0
GateUser-f85bc167
· 8小时前
等一个真实跑分,xAI的benchmark看看就好
回复0
MarginMom
· 8小时前
Grok TTS支持情感标签有点意思,以后AI配音能带哭腔了?
回复0
GateUser-f92ba9fa
· 8小时前
25+语言覆盖,中文效果咋样有人测了吗
回复0
电光石火的冷静
· 8小时前
逆文本归一化是啥黑科技,有懂哥展开讲讲吗
回复0
海盐冷钱包
· 8小时前
词级时间戳+说话人分离,会议记录党狂喜
回复0
QuantsAndCats
· 8小时前
4.2刀/百万字符的TTS,比ElevenLabs便宜还是贵?
回复0
琥珀茶旋
· 8小时前
流式STT 0.2刀/小时,实时字幕场景应该能跑通
回复0
岩石上的多签
· 8小时前
同一音频栈喂给Grok Voice、特斯拉、Starlink,马斯克生态闭环了
回复0
雨后余额截图
· 8小时前
xAI这波音频API来得有点突然,STT定价0.1刀/小时算良心吗?
回复0
查看更多