xAI membuka API audio Grok STT dan TTS, tingkat kesalahan kata keseluruhan STT ditekan menjadi 6,9%

robot
Pembuatan abstrak sedang berlangsung
ME News 消息,4 月 18 日(UTC+8),据 动察 Beating 监测,xAI 上线两个独立音频 API:Grok Speech to Text 和 Grok Text to Speech。两者来自支撑 Grok Voice、特斯拉车载系统和 Starlink 客服的同一套音频栈,此次以独立 endpoint 形式开放,开发者可直接接入语音代理、实时转录、无障碍工具和播客等应用。 STT 提供两种模式。REST API 用于对大音频文件批量转录,毫秒级返回;WebSocket API 面向实时语音流。附带能力包括词级时间戳、说话人分离(diarization)、多通道分别识别,以及反文本归一化,即把口语里的数字、日期、货币自动整形为规范的结构化文本。语种覆盖 25 种以上,可在对话中无缝切换。 xAI 同时公布一组词错率(WER,数值越低越好)对比:整体场景 Grok 6.9%,ElevenLabs 9.0%,Deepgram 11.0%,AssemblyAI 12.9%;「电话通话实体识别」差距被拉得更大,Grok 5.0%,对应三家分别为 12.0%、13.5%、21.3%。会议、视频播客、电话三类常见业务场景下 Grok 也都小幅领先。这组数字由 xAI 自行测试公布,尚无第三方复测。 在定价方面,STT 批处理 0.10 美元/小时、流式 0.20 美元/小时;TTS 为 4.20 美元/100 万字符。 TTS 支持用内联语音标签控制情感和韵律,例如 \[laugh]\、\[sigh]\、\[whisper]\、\ (来源:BlockBeats)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 12
  • 1
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
WhitepaperByTheRoadside
· 2jam yang lalu
Timestamp tingkat kata + pemisahan pembicara, skenario catatan rapat akan membuat orang gila
Lihat AsliBalas0
Lime-ColoredStop-LossLine
· 14jam yang lalu
Batch processing 0,1 dolar/jam sangat menarik, tetapi penetapan harga berganda secara streaming jelas memaksa Anda untuk beralih ke batch besar
Lihat AsliBalas0
GateUser-83a2dd8a
· 14jam yang lalu
25+ bahasa cakupan, bagaimana hasilnya dalam bahasa Mandarin, sudah ada yang menguji belum
Lihat AsliBalas0
TheProphetOfToast
· 16jam yang lalu
Label internal irama emosional, akhirnya tidak perlu lagi mendengarkan robot membacakan naskah
Lihat AsliBalas0
GateUser-b665e41c
· 16jam yang lalu
Integrasi sistem onboard Tesla, berapa milidetik keterlambatan interaksi suara saat mengemudi dapat ditekan
Lihat AsliBalas0
PunkRiskMgr
· 17jam yang lalu
Layanan pelanggan Starlink sudah digunakan, daerah pedesaan dengan aksen dikenali sebagai tambang data pelatihan
Lihat AsliBalas0
ToBeHonest,You'llLose
· 17jam yang lalu
Dari gelombang LLM ke suara, perang multimodal resmi memasuki babak kedua
Lihat AsliBalas0
HashbrownHero
· 17jam yang lalu
Transkripsi massal harga ini, kelompok subtitle dan pembuat podcast diperkirakan akan bermigrasi secara kolektif
Lihat AsliBalas0
GateUser-bee672a5
· 17jam yang lalu
Menunggu komunitas sumber terbuka mereproduksi WER, kebiasaan xAI untuk menguji terlebih dahulu benchmark
Lihat AsliBalas0
TwoFactorZen
· 17jam yang lalu
REST + Mode WebSocket, tingkat kemudahan pengembang maksimal
Lihat AsliBalas0
Lihat Lebih Banyak