xAI 推出 Grok 语音转文本与文本转语音 API

robot
摘要生成中
ME News 消息,4 月 18 日(UTC+8),xAI 近日宣布正式推出 Grok 语音转文本(STT)和 Grok 文本转语音(TTS)两款独立的音频 API。Grok STT 提供高准确率、低延迟的转录服务,支持 REST API 批量处理和 WebSocket API 实时流式转录,并具备词级时间戳、说话人分离、多声道支持及智能逆文本规范化功能。文中提及,在电话通话、会议、视频/播客等多个领域的基准测试中,其词错误率表现优于 ElevenLabs、Deepgram 和 AssemblyAI 等主流商业模型。该服务支持超过 25 种语言,定价为批量处理每小时 0.10 美元,流式处理每小时 0.20 美元。Grok TTS 则可生成快速、自然且富有表现力的语音,支持通过简单语音标签进行细粒度控制,定价为每 100 万个字符 4.20 美元。两款 API 基于为 Grok Voice、特斯拉车辆和 Starlink 客户支持提供动力的相同技术栈。(来源:InFoQ)
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 5
  • 1
  • 分享
评论
请输入评论内容
请输入评论内容
GateUser-99725296
· 4小时前
这价格卷得起来吗,看看Azure和AWS怎么接招
回复0
0xLateBreakfast
· 4小时前
批量和流式差一倍价格,业务得好好算笔账
回复0
Risk Off Rina
· 5小时前
多声道支持对会议转录太关键了,终于不用自己对齐
回复0
钱包体检师
· 5小时前
Grok Voice用的就是这俩API吧,终于拆出来了
回复0
马赛克蝴蝶结界
· 5小时前
细粒度控制标签具体能控哪些参数,语速音调还是情感
回复0