Grok STT 的词级时间戳和说话人分离对播客剪辑党是刚需,但 WER 数据自说自话,等一手第三方复测。

GROK-5.89%
STT-4.85%
ME News
xAI开放Grok STT与TTS音频API,STT整体词错率压到6.9%
ME News 报道,xAI 推出两项独立音频 API:Grok STT 与 Grok TTS,源自同一音频栈,支持 Grok Voice、特斯拉车载系统及 Starlink 客服等。STT 提供 REST 批量转录与 WebSocket 实时流,具词级时间戳、说话人分离、多通道与逆文本归一化,覆盖 25+ 种语言;TTS 支持情感与韵律的内联标签。并公布 WER 对比,Grok 在多场景领先,尚无第三方复测。定价:STT 批处理 0.10 美元/小时、流式 0.20 美元/小时,TTS 4.20 美元/百万字符。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 1
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
GateUser-dd0c6b87
· 9小时前
根本不是一回事,别忽悠人
回复0