xAI meluncurkan API Ucapan ke Teks dan Teks ke Ucapan Grok

robot
Pembuatan abstrak sedang berlangsung
BERITA ME, 18 April (UTC+8), xAI baru-baru ini mengumumkan peluncuran resmi dua API audio independen yaitu Grok Speech-to-Text (STT) dan Grok Text-to-Speech (TTS). Grok STT menawarkan layanan transkripsi dengan akurasi tinggi dan latensi rendah, mendukung pemrosesan batch melalui REST API dan transkripsi streaming waktu nyata melalui WebSocket API, serta dilengkapi dengan penanda waktu tingkat kata, pemisahan pembicara, dukungan multi-saluran, dan fitur normalisasi teks terbalik yang cerdas. Dalam artikel disebutkan bahwa dalam pengujian standar di bidang panggilan telepon, rapat, video/podcast, dan lain-lain, tingkat kesalahan kata dari layanan ini lebih baik dibandingkan model komersial utama seperti ElevenLabs, Deepgram, dan AssemblyAI. Layanan ini mendukung lebih dari 25 bahasa, dengan harga $0,10 per jam untuk pemrosesan batch dan $0,20 per jam untuk streaming. Grok TTS dapat menghasilkan suara yang cepat, alami, dan ekspresif, mendukung kontrol granular melalui label suara sederhana, dengan harga $4,20 untuk setiap 1 juta karakter. Kedua API ini didasarkan pada teknologi yang sama yang digunakan untuk mendukung Grok Voice, kendaraan Tesla, dan pelanggan Starlink. (Sumber: InFoQ)
XAI-2,15%
GROK3,4%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 7
  • 3
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
RiskParachute
· 7jam yang lalu
Tunggu, apakah TTS dapat dikontrol secara granular melalui tag? Jadi, semua nuansa emosional dan intonasi bisa disesuaikan?
Lihat AsliBalas0
BitByBitBenny
· 8jam yang lalu
Timestamp tingkat kata + pemisahan pembicara, alat ajaib untuk notulen rapat, ingin mencobanya
Lihat AsliBalas0
FrictionlessFred
· 8jam yang lalu
Grok Voice、Tesla、Starlink menggunakan satu rangkaian teknologi yang sama, Elon Musk telah memahami ekosistem tertutup ini
Lihat AsliBalas0
GoldfishUnderTheIce
· 8jam yang lalu
Apa itu teknologi canggih normalisasi teks terbalik, mengubah percakapan lisan menjadi teks standar?
Lihat AsliBalas0
Don'tMessWithSlippage.
· 8jam yang lalu
25 jenis bahasa cakupan, bagaimana hasilnya dalam bahasa Mandarin, sudah ada yang menguji belum?
Lihat AsliBalas0
YieldBonsai
· 8jam yang lalu
4,20 dolar AS/ juta karakter, angka ini sengaja, kan?
Lihat AsliBalas0
IOnlyTrustOn-ChainData.
· 8jam yang lalu
xAI kali ini harga API audio cukup keras, batch 0.1 dolar/jam, rasanya akan mematikan banyak vendor ASR.
Lihat AsliBalas0