xAI 開放Grok STT與TTS音頻API,STT整體詞錯率壓到6.9%

robot
摘要生成中
ME News 消息,4 月 18 日(UTC+8),據 動察 Beating 監測,xAI 上線兩個獨立音頻 API:Grok Speech to Text 和 Grok Text to Speech。兩者來自支撐 Grok Voice、特斯拉車載系統和 Starlink 客服的同一套音頻棧,此次以獨立 endpoint 形式開放,開發者可直接接入語音代理、實時轉錄、無障礙工具和播客等應用。 STT 提供兩種模式。REST API 用於對大音頻文件批量轉錄,毫秒級返回;WebSocket API 面向實時語音流。附帶能力包括詞級時間戳、說話人分離(diarization)、多通道分別識別,以及 Inverse Text Normalization,即把口語裡的數字、日期、貨幣自動整形為規範的結構化文本。語種覆蓋 25 種以上,可在對話中無縫切換。 xAI 同時公布一組詞錯率(WER,數值越低越好)對比:整體場景 Grok 6.9%,ElevenLabs 9.0%,Deepgram 11.0%,AssemblyAI 12.9%;「電話通話實體識別」差距被拉得更大,Grok 5.0%,對應三家分別為 12.0%、13.5%、21.3%。會議、視頻播客、電話三類常見業務場景下 Grok 也都小幅領先。這組數字由 xAI 自行測試公布,尚無第三方復測。 定價上,STT 批處理 0.10 美元/小時、流式 0.20 美元/小時;TTS 為 4.20 美元/100 萬字符。 TTS 支持用內聯 Speech Tags 控制情感和韻律,例如 \[laugh\]\、\[sigh\]\、\[whisper\]\、\ (來源:BlockBeats)
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 10
  • 3
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
泡面级研究员
· 6小時前
批量轉錄用REST、實時用WebSocket,架構設計挺務實的
查看原文回復0
GateUser-f85bc167
· 6小時前
等一個真實跑分,xAI的基準測試看看就好
查看原文回復0
MarginMom
· 6小時前
Grok TTS 支持情感标签有點意思,以後AI配音能帶哭腔了?
查看原文回復0
GateUser-f92ba9fa
· 6小時前
25+語言覆蓋,中文效果怎樣有人測過了嗎
查看原文回復0
电光石火的冷静
· 6小時前
逆文本歸一化是什麼黑科技,有懂哥展開講講嗎
查看原文回復0
海盐冷钱包
· 6小時前
詞級時間戳+說話人分離,會議記錄黨狂喜
查看原文回復0
QuantsAndCats
· 6小時前
4.2美元/百萬字符的TTS,比ElevenLabs便宜還是貴?
查看原文回復0
琥珀茶旋
· 6小時前
流式STT 0.2美元/小時,實時字幕場景應該能跑通
查看原文回復0
岩石上的多签
· 6小時前
同一音頻堆疊喂給Grok Voice、特斯拉、Starlink,馬斯克生態閉環了
查看原文回復0
雨后余额截图
· 6小時前
xAI這波音頻API來得有點突然,STT定價0.1刀/小時算良心嗎?
查看原文回復0
查看更多