xAI 推出 Grok 语音转文本与文本转语音 API

robot
摘要生成中
ME News 消息,4 月 18 日(UTC+8),xAI 近日宣布正式推出 Grok 语音转文本(STT)和 Grok 文本转语音(TTS)两款独立的音频 API。Grok STT 提供高准确率、低延迟的转录服务,支持 REST API 批量处理和 WebSocket API 实时流式转录,并具备词级时间戳、说话人分离、多声道支持及智能逆文本规范化功能。文中提及,在电话通话、会议、视频/播客等多个领域的基准测试中,其词错误率表现优于 ElevenLabs、Deepgram 和 AssemblyAI 等主流商业模型。该服务支持超过 25 种语言,定价为批量处理每小时 0.10 美元,流式处理每小时 0.20 美元。Grok TTS 则可生成快速、自然且富有表现力的语音,支持通过简单语音标签进行细粒度控制,定价为每 100 万个字符 4.20 美元。两款 API 基于为 Grok Voice、特斯拉车辆和 Starlink 客户支持提供动力的相同技术栈。(来源:InFoQ)
XAI-2.15%
GROK3.4%
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 7
  • 3
  • 分享
评论
请输入评论内容
请输入评论内容
Risk Parachute
· 7小时前
等等,TTS 能通过标签细粒度控制?那情感语气都能调?
回复0
BitByBitBenny
· 8小时前
词级时间戳+说话人分离,做会议纪要神器啊,想试试
回复0
Frictionless Fred
· 8小时前
Grok Voice、特斯拉、Starlink 共用一套技术栈,马斯克这生态闭环玩明白了
回复0
金鱼在冰面下
· 8小时前
逆文本规范化是什么黑科技,把口语转回标准文本?
回复0
滑点别闹
· 8小时前
25 种语言覆盖,中文效果咋样有人测了吗
回复0
YieldBonsai
· 8小时前
4.20 美元/百万字符,这数字是故意的吧
回复0
我只看链上说话
· 8小时前
xAI 这波音频 API 定价挺狠的,批量 0.1 刀/小时,感觉要卷死一批 ASR 厂商了
回复0