xAI 推出 Grok 语音转文本与文本转语音 API

robot
摘要生成中
ME News 消息,4 月 18 日(UTC+8),xAI 近日宣布正式推出 Grok 语音转文本(STT)和 Grok 文本转语音(TTS)两款独立的音频 API。Grok STT 提供高准确率、低延迟的转录服务,支持 REST API 批量处理和 WebSocket API 实时流式转录,并具备词级时间戳、说话人分离、多声道支持及智能逆文本规范化功能。文中提及,在电话通话、会议、视频/播客等多个领域的基准测试中,其词错误率表现优于 ElevenLabs、Deepgram 和 AssemblyAI 等主流商业模型。该服务支持超过 25 种语言,定价为批量处理每小时 0.10 美元,流式处理每小时 0.20 美元。Grok TTS 则可生成快速、自然且富有表现力的语音,支持通过简单语音标签进行细粒度控制,定价为每 100 万个字符 4.20 美元。两款 API 基于为 Grok Voice、特斯拉车辆和 Starlink 客户支持提供动力的相同技术栈。(来源:InFoQ)
XAI-0.8%
GROK-1.31%
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 3
  • 2
  • 分享
评论
请输入评论内容
请输入评论内容
红电话亭废墟
· 8小时前
WebSocket实时转录延迟能打吗,直播场景急用
回复0
QueuePosition
· 8小时前
4.20美元定价是在玩梗吗,马斯克果然不忘meme本色
回复0
Neon Margin
· 9小时前
词级时间戳+说话人分离,做播客剪辑的狂喜
回复0