xAI meluncurkan API Ucapan ke Teks dan Teks ke Ucapan Grok

robot
Pembuatan abstrak sedang berlangsung

Berita ME News, 18 April (UTC+8), xAI baru-baru ini mengumumkan peluncuran resmi dua API audio independen yaitu Grok Speech-to-Text (STT) dan Grok Text-to-Speech (TTS). Grok STT menawarkan layanan transkripsi dengan akurasi tinggi dan latensi rendah, mendukung pemrosesan batch melalui REST API dan transkripsi streaming waktu nyata melalui WebSocket API, serta dilengkapi dengan cap waktu tingkat kata, pemisahan pembicara, dukungan multi-saluran, dan fitur normalisasi teks terbalik yang cerdas. Dalam artikel disebutkan bahwa dalam pengujian benchmark di bidang panggilan telepon, rapat, video/podcast, performa tingkat kesalahan kata mereka lebih baik dibandingkan model komersial utama seperti ElevenLabs, Deepgram, dan AssemblyAI. Layanan ini mendukung lebih dari 25 bahasa, dengan harga $0,10 per jam untuk pemrosesan batch dan $0,20 per jam untuk streaming. Grok TTS dapat menghasilkan suara yang cepat, alami, dan ekspresif, mendukung kontrol granular melalui label suara sederhana, dengan harga $4,20 per juta karakter. Kedua API ini berbasis teknologi yang sama yang digunakan untuk mendukung Grok Voice, kendaraan Tesla, dan pelanggan Starlink. (Sumber: InFoQ)

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan