ME News 報導，xAI 推出兩項獨立音頻 API：Grok STT 與 Grok TTS，源自同一音頻棧，支持 Grok Voice、特斯拉車載系統及 Starlink 客服等。STT 提供 REST 批量轉錄與 WebSocket 實時流，具詞級時間戳、說話人分離、多通道與逆文本歸一化，覆蓋 25+ 種語言；TTS 支持情感與韻律的內聯標籤。並公布 WER 對比，Grok 在多場景領先，尚無第三方復測。定價：STT 批處理 0.10 美元/小時、流式 0.20 美元/小時，TTS 4.20 美元/百萬字符。

ME News

2026-05-26 13:41:03

摘要生成中

ME News 消息，4 月 18 日（UTC+8），據動察 Beating 監測，xAI 上線兩個獨立音頻 API：Grok Speech to Text 和 Grok Text to Speech。兩者來自支撐 Grok Voice、特斯拉車載系統和 Starlink 客服的同一套音頻棧，此次以獨立 endpoint 形式開放，開發者可直接接入語音代理、實時轉錄、無障礙工具和播客等應用。 STT 提供兩種模式。REST API 用於對大音頻文件批量轉錄，毫秒級返回；WebSocket API 面向實時語音流。附帶能力包括詞級時間戳、說話人分離（diarization）、多通道分別識別，以及 Inverse Text Normalization，即把口語裡的數字、日期、貨幣自動整形為規範的結構化文本。語種覆蓋 25 種以上，可在對話中無縫切換。 xAI 同時公布一組詞錯率（WER，數值越低越好）對比：整體場景 Grok 6.9%，ElevenLabs 9.0%，Deepgram 11.0%，AssemblyAI 12.9%；「電話通話實體識別」差距被拉得更大，Grok 5.0%，對應三家分別為 12.0%、13.5%、21.3%。會議、視頻播客、電話三類常見業務場景下 Grok 也都小幅領先。這組數字由 xAI 自行測試公布，尚無第三方復測。定價上，STT 批處理 0.10 美元/小時、流式 0.20 美元/小時；TTS 為 4.20 美元/100 萬字符。 TTS 支持用內聯 Speech Tags 控制情感和韻律，例如 \[laugh\]\、\[sigh\]\、\[whisper\]\、\ （來源：BlockBeats）

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

10人按讚了這條動態

打賞
10
10
3
分享

回覆

請輸入回覆內容

泡面级研究员

· 6小時前

批量轉錄用REST、實時用WebSocket，架構設計挺務實的

查看原文回復0

GateUser-f85bc167

· 6小時前

等一個真實跑分，xAI的基準測試看看就好

查看原文回復0

MarginMom

· 6小時前

Grok TTS 支持情感标签有點意思，以後AI配音能帶哭腔了？

查看原文回復0

GateUser-f92ba9fa

· 6小時前

25+語言覆蓋，中文效果怎樣有人測過了嗎

查看原文回復0

电光石火的冷静

· 6小時前

逆文本歸一化是什麼黑科技，有懂哥展開講講嗎

查看原文回復0

海盐冷钱包

· 6小時前

詞級時間戳+說話人分離，會議記錄黨狂喜

查看原文回復0

QuantsAndCats

· 6小時前

4.2美元/百萬字符的TTS，比ElevenLabs便宜還是貴？

查看原文回復0

琥珀茶旋

· 6小時前

流式STT 0.2美元/小時，實時字幕場景應該能跑通

查看原文回復0

岩石上的多签

· 6小時前

同一音頻堆疊喂給Grok Voice、特斯拉、Starlink，馬斯克生態閉環了

查看原文回復0

雨后余额截图

· 6小時前

xAI這波音頻API來得有點突然，STT定價0.1刀/小時算良心嗎？

查看原文回復0

熱門話題
查看更多
#
股票交易挑戰最高贏17000U
1621.87萬熱度
#
美軍打擊伊朗
931.93萬熱度
#
Gate預測市場升級聰明錢追蹤
1307.06萬熱度
#
機構資金從BTC輪動至HYPE和XRP
1433.51萬熱度
#
交易CFD送黃金
308.25萬熱度

xAI 開放Grok STT與TTS音頻API，STT整體詞錯率壓到6.9%

熱門話題

股票交易挑戰最高贏17000U

美軍打擊伊朗

Gate預測市場升級聰明錢追蹤

機構資金從BTC輪動至HYPE和XRP

交易CFD送黃金

已置頂