xAI Meluncurkan API Ucapan Grok Mengungguli Kompetitor sebesar 60%

Zach Anderson

18 Apr 2026 00:53

Elon Musk’s xAI merilis API Speech to Text dan Text to Speech Grok dengan biaya $0,10/jam, mengklaim tingkat kesalahan terendah di seluruh tolok ukur transkripsi perusahaan.

Elon Musk’s xAI merilis dua API audio mandiri pada 17 April, memposisikan teknologi ucapan Grok sebagai pesaing langsung ElevenLabs, Deepgram, dan AssemblyAI dengan harga yang agresif.

API Speech to Text Grok berjalan dengan biaya $0,10 per jam untuk pemrosesan batch dan $0,20 per jam untuk streaming waktu nyata. Text to Speech dihargai $4,20 per juta karakter. Keduanya memanfaatkan infrastruktur yang sama yang mendukung kendaraan Tesla dan layanan pelanggan Starlink.

Klaim Benchmark yang Perlu Diperiksa

Tingkat kesalahan kata yang dipublikasikan xAI menunjukkan cerita yang menarik. Pada pengenalan entitas panggilan telepon—seperti nama, nomor rekening, tanggal—Grok STT mengklaim tingkat kesalahan 5,0% dibandingkan ElevenLabs dengan 12,0%, Deepgram dengan 13,5%, dan AssemblyAI dengan 21,3%. Itu jarak yang signifikan jika terbukti dalam produksi.

Perusahaan menunjukkan ini dengan sebuah kasus uji yang rumit: mentranskripsi nama Wales seperti “Anghared Llewelyn Bowen” dan “Oisin MacGiolla Phadraig” bersama detail hipotek. Grok berhasil tanpa kesalahan. Model pesaing tersandung pada pengucapan dan format tanggal yang tidak konsisten.

Transkripsi video dan podcast menunjukkan kompetisi yang lebih ketat—Grok dan ElevenLabs seri dengan tingkat kesalahan 2,4%, sementara Deepgram dan AssemblyAI sedikit tertinggal di 3,0% dan 3,2%.

Fitur Teknis untuk Pengembang

Selain transkripsi mentah, xAI membangun fitur yang benar-benar dibutuhkan pelanggan perusahaan: cap waktu tingkat kata, diarization pembicara di berbagai saluran audio, dan dukungan untuk lebih dari 25 bahasa dengan pergantian yang mulus.

Fitur Inverse Text Normalization secara otomatis mengubah angka, tanggal, dan mata uang yang diucapkan ke dalam format yang benar. “Four one four five five five one two three four” menjadi nomor telepon. “Six ninety-nine” menjadi $6,99. Detail kecil, tetapi menghilangkan masalah pasca-pemrosesan.

Text to Speech menyertakan tag inline untuk kontrol prosodi—bisikan, tawa, desahan, penekanan, penyesuaian kecepatan. Pengembang dapat menyisipkan nuansa emosional tanpa harus berurusan dengan markup audio yang kompleks.

Konteks Strategis

Peluncuran ini mengikuti akuisisi xAI terhadap X Corp pada Maret 2025 dan datang saat perusahaan memperluas kemitraan infrastruktur. Dua hari sebelum pengumuman API, muncul laporan bahwa xAI berencana menyediakan daya komputasi untuk Cursor, startup pengkodean berbasis AI.

Superkomputer Colossus, yang beroperasi sejak Desember 2024, menyediakan kekuatan backend. xAI tampaknya memonetisasi kapasitas tersebut di berbagai bidang—AI perusahaan, alat pengembang, dan sekarang API suara.

Bagi pengembang yang membangun agen suara atau alat transkripsi, harga ini jauh lebih murah dibandingkan pemain mapan. Apakah klaim akurasi Grok akan bertahan dalam penerapan nyata secara skala besar tetap menjadi pertanyaan terbuka. Dokumentasi dan batasan tarif tersedia melalui konsol API xAI bagi yang siap mengujinya.

Sumber gambar: Shutterstock

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan