xAI 推出 Grok 语音转文本与文本转语音 API

robot
摘要生成中
ME News 消息,4 月 18 日(UTC+8),xAI 近日宣布正式推出 Grok 语音转文本(STT)和 Grok 文本转语音(TTS)两款独立的音频 API。Grok STT 提供高准确率、低延迟的转录服务,支持 REST API 批量处理和 WebSocket API 实时流式转录,并具备词级时间戳、说话人分离、多声道支持及智能逆文本规范化功能。文中提及,在电话通话、会议、视频/播客等多个领域的基准测试中,其词错误率表现优于 ElevenLabs、Deepgram 和 AssemblyAI 等主流商业模型。该服务支持超过 25 种语言,定价为批量处理每小时 0.10 美元,流式处理每小时 0.20 美元。Grok TTS 则可生成快速、自然且富有表现力的语音,支持通过简单语音标签进行细粒度控制,定价为每 100 万个字符 4.20 美元。两款 API 基于为 Grok Voice、特斯拉车辆和 Starlink 客户支持提供动力的相同技术栈。(来源:InFoQ)
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 5
  • 2
  • 分享
评论
请输入评论内容
请输入评论内容
薄荷色的冷静
· 6小时前
特斯拉车机语音要升级了?Starlink 也能用有点意思
回复0
夏夜冷钱包
· 6小时前
逆文本规范化是啥黑科技,数字转文字自动处理?
回复0
NekoValidator
· 6小时前
0.1刀/小时批量价,25+语言,这波要卷死 Whisper
回复0
奶油色跨链桥
· 7小时前
REST 批量+WebSocket 流式双模式,开发者友好度拉满
回复0
GateUser-deff9ed8
· 7小时前
xAI 开始卖 API 了,马斯克生态闭环+1
回复0