xAI membuka API audio Grok STT dan TTS, tingkat kesalahan kata keseluruhan STT ditekan menjadi 6,9%

robot
Pembuatan abstrak sedang berlangsung
Berita ME News, 18 April (UTC+8), menurut pemantauan Beating dari Dongcha, xAI meluncurkan dua API audio independen: Grok Speech to Text dan Grok Text to Speech. Keduanya berasal dari rangkaian audio yang mendukung Grok Voice, sistem onboard Tesla, dan layanan pelanggan Starlink, kali ini dibuka dalam bentuk endpoint terpisah, sehingga pengembang dapat langsung mengintegrasikan proxy suara, transkripsi real-time, alat aksesibilitas, dan podcast. STT menyediakan dua mode. API REST digunakan untuk transkripsi batch file audio besar dengan pengembalian dalam milidetik; API WebSocket ditujukan untuk aliran suara real-time. Kemampuan tambahan termasuk cap waktu tingkat kata, pemisahan pembicara (diarization), pengenalan terpisah multi-channel, dan Inverse Text Normalization, yaitu otomatis mengubah angka, tanggal, dan mata uang dalam percakapan menjadi teks terstruktur yang standar. Mendukung lebih dari 25 bahasa, dapat beralih secara mulus dalam percakapan. xAI juga mengumumkan rangkaian perbandingan tingkat kesalahan kata (WER, semakin rendah semakin baik): untuk skenario umum Grok 6,9%, ElevenLabs 9,0%, Deepgram 11,0%, AssemblyAI 12,9%; perbedaan dalam "pengakuan entitas panggilan telepon" menjadi lebih besar, Grok 5,0%, masing-masing tiga penyedia lainnya 12,0%, 13,5%, 21,3%. Dalam skenario umum seperti rapat, podcast video, dan panggilan telepon, Grok juga sedikit unggul. Data ini dipublikasikan oleh xAI berdasarkan pengujian internal, belum ada pengujian ulang dari pihak ketiga. Untuk harga, STT batch sebesar 0,10 dolar AS per jam, streaming 0,20 dolar AS per jam; TTS sebesar 4,20 dolar AS per 1 juta karakter. TTS mendukung penggunaan Tag Speech inline untuk mengontrol emosi dan intonasi, seperti \[laugh]\, \[sigh]\, \[whisper]\, (sumber: BlockBeats).
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 7
  • 2
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
SushiAndSlugs
· 17jam yang lalu
Penjelasan rinci tentang label emosi internal, bisakah AI menggunakan nada "bacot" dengan ironi dan sarkasme
Lihat AsliBalas0
FragilePosition
· 17jam yang lalu
Timestamp tingkat kata + pemisahan pembicara, kegembiraan dalam mengedit podcast
Lihat AsliBalas0
MempoolSparrow
· 17jam yang lalu
WebSocket aliran waktu nyata 0,2 dolar/jam, lebih murah atau lebih mahal daripada Whisper?
Lihat AsliBalas0
GateUser-b6d80ba0
· 17jam yang lalu
Layanan pelanggan Starlink sudah digunakan, tidak heran terakhir kali menghubungi layanan pelanggan merasa lawan seperti AI
Lihat AsliBalas0
AirdropMileCounter
· 17jam yang lalu
25+ bahasa cakupan, bagaimana hasilnya dalam bahasa Mandarin, ada yang sudah mengujinya?
Lihat AsliBalas0
ReflectiveChainShadow
· 17jam yang lalu
Tumpang tindih audio yang sama menghubungkan mesin mobil + satelit + obrolan, ekosistem tertutup xAI ini cukup menarik
Lihat AsliBalas0
MintAfterCoffee
· 17jam yang lalu
Apa itu teknologi canggih normalisasi teks terbalik, ada yang paham bisa jelaskan lebih detail?
Lihat AsliBalas0