xAI meluncurkan API Ucapan ke Teks dan Teks ke Ucapan Grok

robot
Pembuatan abstrak sedang berlangsung
BERITA ME, 18 April (UTC+8), xAI baru-baru ini mengumumkan peluncuran resmi dua API audio independen yaitu Grok Speech-to-Text (STT) dan Grok Text-to-Speech (TTS). Grok STT menawarkan layanan transkripsi dengan akurasi tinggi dan latensi rendah, mendukung pemrosesan batch melalui REST API dan transkripsi streaming waktu nyata melalui WebSocket API, serta dilengkapi dengan fitur penanda waktu tingkat kata, pemisahan pembicara, dukungan multi-saluran, dan normalisasi teks terbalik yang cerdas. Dalam artikel disebutkan bahwa dalam pengujian benchmark di bidang panggilan telepon, rapat, video/podcast, dan lainnya, tingkat kesalahan kata dari layanan ini lebih baik dibandingkan model komersial utama seperti ElevenLabs, Deepgram, dan AssemblyAI. Layanan ini mendukung lebih dari 25 bahasa, dengan harga $0,10 per jam untuk pemrosesan batch dan $0,20 per jam untuk streaming. Grok TTS dapat menghasilkan suara yang cepat, alami, dan ekspresif, mendukung kontrol granular melalui label suara sederhana, dengan harga $4,20 per juta karakter. Kedua API ini didasarkan pada teknologi yang sama yang digunakan untuk mendukung Grok Voice, kendaraan Tesla, dan pelanggan Starlink. (Sumber: InFoQ)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 5
  • 1
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
GateUser-99725296
· 9jam yang lalu
Apakah harga ini bisa bersaing, lihat bagaimana Azure dan AWS menghadapi tantangan ini
Lihat AsliBalas0
0xLateBreakfast
· 9jam yang lalu
Harga untuk batch dan streaming berbeda dua kali lipat, bisnis harus menghitung dengan baik.
Lihat AsliBalas0
RiskOffRina
· 9jam yang lalu
Dukungan multi-saluran sangat penting untuk transkripsi rapat, akhirnya tidak perlu menyelaraskan sendiri lagi
Lihat AsliBalas0
WalletHealthInspector
· 9jam yang lalu
Grok Voice menggunakan kedua API ini, kan, akhirnya dipisahkan.
Lihat AsliBalas0
MosaicBowtieRealm
· 9jam yang lalu
Kontrol label granularitas tertentu dapat mengontrol parameter apa saja, kecepatan bicara, nada suara, atau bahkan emosi
Lihat AsliBalas0