xAI membuka API audio Grok STT dan TTS, tingkat kesalahan kata keseluruhan STT ditekan menjadi 6,9%

robot
Pembuatan abstrak sedang berlangsung
Berita ME News, 18 April (UTC+8), menurut pemantauan Beating dari Dongcha, xAI meluncurkan dua API audio independen: Grok Speech to Text dan Grok Text to Speech. Keduanya berasal dari rangkaian audio yang mendukung Grok Voice, sistem onboard Tesla, dan layanan pelanggan Starlink, kali ini dibuka dalam bentuk endpoint terpisah, sehingga pengembang dapat langsung mengintegrasikan ke aplikasi proxy suara, transkripsi real-time, alat bantu aksesibilitas, dan podcast. STT menyediakan dua mode. API REST digunakan untuk transkripsi batch file audio besar dengan waktu respons milidetik; API WebSocket ditujukan untuk aliran suara real-time. Kemampuan tambahan termasuk cap waktu tingkat kata, pemisahan pembicara (diarization), pengenalan terpisah untuk multi-channel, dan Inverse Text Normalization, yaitu otomatis mengubah angka, tanggal, dan mata uang dalam percakapan menjadi teks terstruktur yang standar. Mendukung lebih dari 25 bahasa, dapat beralih secara mulus dalam percakapan. xAI juga mengumumkan perbandingan tingkat kesalahan kata (WER, semakin rendah semakin baik): secara keseluruhan Grok 6,9%, ElevenLabs 9,0%, Deepgram 11,0%, AssemblyAI 12,9%; perbedaan dalam "pengakuan entitas panggilan telepon" semakin besar, Grok 5,0%, masing-masing tiga lainnya 12,0%, 13,5%, 21,3%. Dalam skenario umum seperti rapat, podcast video, dan panggilan telepon, Grok juga sedikit unggul. Data ini dipublikasikan oleh xAI berdasarkan pengujian internal, belum ada pengujian ulang dari pihak ketiga. Untuk harga, STT batch sebesar 0,10 dolar AS per jam, streaming 0,20 dolar AS per jam; TTS sebesar 4,20 dolar AS per 1 juta karakter. TTS mendukung penggunaan Tag Speech inline untuk mengontrol emosi dan intonasi, seperti \[laugh\], \[sigh\], \[whisper\], (sumber: BlockBeats).
XAI-1,74%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 6
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
SudoSatoshi
· 3jam yang lalu
Cakupan multibahasa lebih dari 25+, tetapi bagaimana kualitas bahasa minoritas?
Rata-rata WER terlihat baik, tetapi bahasa ekor panjang mungkin masih menjadi bencana.
Lihat AsliBalas0
AirdropUnderTheNeonBridge
· 3jam yang lalu
Tag internal untuk emosi dan irama? TTS akhirnya bukan lagi mesin pembaca naskah, bisa bermain-main saat membuat buku suara atau dialog NPC game.
Lihat AsliBalas0
AirdropCartographer
· 3jam yang lalu
Multi-channel + pemisahan pembicara, alat ajaib untuk transkripsi rekaman rapat, tetapi biaya streaming 0,2 dolar/jam, rapat panjang juga tidak murah.
Lihat AsliBalas0
PerpPulse
· 3jam yang lalu
Grok Voice、Tesla kendaraan, Starlink layanan pelanggan semuanya menggunakan rangkaian audio yang sama, ekosistem tertutup yang dimainkan Elon Musk semakin mahir.
Lihat AsliBalas0
MintLaterMaybe
· 3jam yang lalu
Apa itu normalisasi teks terbalik? Mengubah angka menjadi angka Arab? Fungsi ini cukup penting untuk pengolahan pasca transkripsi suara, agar tidak perlu menulis regex sendiri.
Lihat AsliBalas0
CliffsideAncientPineAndRolling
· 3jam yang lalu
xAI kali ini kombinasi API audio menyerang cukup keras, STT streaming 0,2 dolar/jam, TTS 4,2 dolar/juta karakter, strategi penetapan harga jelas ditujukan untuk penggunaan skala besar.
Lihat AsliBalas0