xAI 推出 Grok 語音轉文本與文本轉語音 API

robot
摘要生成中
ME News 消息,4 月 18 日(UTC+8),xAI 近日宣布正式推出 Grok 語音轉文本(STT)和 Grok 文本轉語音(TTS)兩款獨立的音頻 API。Grok STT 提供高準確率、低延遲的轉錄服務,支持 REST API 批量處理和 WebSocket API 實時流式轉錄,並具備詞級時間戳、說話人分離、多聲道支持及智能逆文本規範化功能。文中提及,在電話通話、會議、視頻/播客等多個領域的基準測試中,其詞錯誤率表現優於 ElevenLabs、Deepgram 和 AssemblyAI 等主流商業模型。該服務支持超過 25 種語言,定價為批量處理每小時 0.10 美元,流式處理每小時 0.20 美元。Grok TTS 則可生成快速、自然且富有表現力的語音,支持通過簡單語音標籤進行細粒度控制,定價為每 100 萬個字符 4.20 美元。兩款 API 基於為 Grok Voice、特斯拉車輛和 Starlink 客戶支持提供動力的相同技術棧。(來源:InFoQ)
XAI-1.71%
GROK-0.22%
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 7
  • 3
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
Risk Parachute
· 6小時前
等等,TTS 能通过标签細粒度控制?那情感語氣都能調?
查看原文回復0
BitByBitBenny
· 6小時前
詞級時間戳+說話人分離,做會議紀要神器啊,想試試
查看原文回復0
Frictionless Fred
· 7小時前
Grok Voice、特斯拉、Starlink 共用一套技術棧,馬斯克這個生態閉環玩明白了
查看原文回復0
金鱼在冰面下
· 7小時前
逆文本規範化是什麼黑科技,把口語轉回標準文本?
查看原文回復0
滑点别闹
· 7小時前
25 種語言覆蓋,中文效果怎麼樣有人測了嗎
查看原文回復0
YieldBonsai
· 7小時前
4.20 美元/百萬字符,這個數字是故意的吧
查看原文回復0
我只看链上说话
· 7小時前
xAI 這波音頻 API 定價挺狠的,批量 0.1 刀/小時,感覺要捲死一批 ASR 廠商了
查看原文回復0