xAI开放Grok STT与TTS音频API，STT整体词错率压到6.9%

ME News · 2026-05-26T13:41:03+00:00

ME News 报道，xAI 推出两项独立音频 API：Grok STT 与 Grok TTS，源自同一音频栈，支持 Grok Voice、特斯拉车载系统及 Starlink 客服等。STT 提供 REST 批量转录与 WebSocket 实时流，具词级时间戳、说话人分离、多通道与逆文本归一化，覆盖 25+ 种语言；TTS 支持情感与韵律的内联标签。并公布 WER 对比，Grok 在多场景领先，尚无第三方复测。定价：STT 批处理 0.10 美元/小时、流式 0.20 美元/小时，TTS 4.20 美元/百万字符。

ME News

2026-05-26 13:41:03

摘要生成中

ME News 消息，4 月 18 日（UTC+8），据动察 Beating 监测，xAI 上线两个独立音频 API：Grok Speech to Text 和 Grok Text to Speech。两者来自支撑 Grok Voice、特斯拉车载系统和 Starlink 客服的同一套音频栈，此次以独立 endpoint 形式开放，开发者可直接接入语音代理、实时转录、无障碍工具和播客等应用。 STT 提供两种模式。REST API 用于对大音频文件批量转录，毫秒级返回；WebSocket API 面向实时语音流。附带能力包括词级时间戳、说话人分离（diarization）、多通道分别识别，以及 Inverse Text Normalization，即把口语里的数字、日期、货币自动整形为规范的结构化文本。语种覆盖 25 种以上，可在对话中无缝切换。 xAI 同时公布一组词错率（WER，数值越低越好）对比：整体场景 Grok 6.9%，ElevenLabs 9.0%，Deepgram 11.0%，AssemblyAI 12.9%；「电话通话实体识别」差距被拉得更大，Grok 5.0%，对应三家分别为 12.0%、13.5%、21.3%。会议、视频播客、电话三类常见业务场景下 Grok 也都小幅领先。这组数字由 xAI 自行测试公布，尚无第三方复测。定价上，STT 批处理 0.10 美元/小时、流式 0.20 美元/小时；TTS 为 4.20 美元/100 万字符。 TTS 支持用内联 Speech Tags 控制情感和韵律，例如 \[laugh]\、\[sigh]\、\[whisper]\、\ （来源：BlockBeats）

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

11人点赞了这条动态

赞赏
11
10
3
分享

请输入评论内容

泡面级研究员

· 8小时前

批量转录用REST、实时用WebSocket，架构设计挺务实的

GateUser-f85bc167

· 8小时前

等一个真实跑分，xAI的benchmark看看就好

MarginMom

· 8小时前

Grok TTS支持情感标签有点意思，以后AI配音能带哭腔了？

GateUser-f92ba9fa

· 8小时前

25+语言覆盖，中文效果咋样有人测了吗

电光石火的冷静

· 8小时前

逆文本归一化是啥黑科技，有懂哥展开讲讲吗

海盐冷钱包

· 8小时前

词级时间戳+说话人分离，会议记录党狂喜

QuantsAndCats

· 8小时前

4.2刀/百万字符的TTS，比ElevenLabs便宜还是贵？

琥珀茶旋

· 8小时前

流式STT 0.2刀/小时，实时字幕场景应该能跑通

岩石上的多签

· 8小时前

同一音频栈喂给Grok Voice、特斯拉、Starlink，马斯克生态闭环了

雨后余额截图

· 8小时前

xAI这波音频API来得有点突然，STT定价0.1刀/小时算良心吗？

热门话题
查看更多
#
股票交易挑战最高赢17000U
1622.13万热度
#
美军打击伊朗
932.03万热度
#
Gate预测市场升级聪明钱追踪
1380.91万热度
#
机构资金从BTC轮动至HYPE和XRP
1433.55万热度
#
交易CFD送黄金
308.26万热度

xAI开放Grok STT与TTS音频API，STT整体词错率压到6.9%

热门话题

股票交易挑战最高赢17000U

美军打击伊朗

Gate预测市场升级聪明钱追踪

机构资金从BTC轮动至HYPE和XRP

交易CFD送黄金

置顶