xAI membuka API audio Grok STT dan TTS, tingkat kesalahan kata keseluruhan STT ditekan menjadi 6,9%

Berita ME News, 18 April (UTC+8), menurut pemantauan Beating dari Dongcha, xAI meluncurkan dua API audio independen: Grok Speech to Text dan Grok Text to Speech. Keduanya berasal dari rangkaian audio yang mendukung Grok Voice, sistem onboard Tesla, dan layanan pelanggan Starlink, kali ini dibuka dalam bentuk endpoint terpisah, sehingga pengembang dapat langsung mengintegrasikan proxy suara, transkripsi real-time, alat aksesibilitas, dan podcast. STT menyediakan dua mode. API REST digunakan untuk transkripsi batch file audio besar dengan pengembalian dalam milidetik; API WebSocket ditujukan untuk aliran suara real-time. Kemampuan tambahan termasuk cap waktu tingkat kata, pemisahan pembicara (diarization), pengenalan terpisah untuk multi-channel, dan Inverse Text Normalization, yaitu otomatis mengubah angka, tanggal, dan mata uang dalam percakapan menjadi teks terstruktur yang standar. Mendukung lebih dari 25 bahasa, dapat beralih secara mulus dalam percakapan. xAI juga mengumumkan perbandingan tingkat kesalahan kata (WER, semakin rendah semakin baik): dalam skenario umum Grok 6,9%, ElevenLabs 9,0%, Deepgram 11,0%, AssemblyAI 12,9%; perbedaan dalam "pengakuan entitas panggilan telepon" semakin besar, Grok 5,0%, masing-masing tiga penyedia lainnya 12,0%, 13,5%, 21,3%. Dalam skenario umum seperti rapat, podcast video, dan panggilan telepon, Grok juga sedikit unggul. Data ini dipublikasikan oleh xAI berdasarkan pengujian internal, belum ada pengujian ulang dari pihak ketiga. Untuk harga, STT batch sebesar 0,10 dolar AS per jam, streaming 0,20 dolar AS per jam; TTS sebesar 4,20 dolar AS per 1 juta karakter. TTS mendukung penggunaan Tag Suara inline untuk mengontrol emosi dan intonasi, seperti \[laugh]\, \[sigh]\, \[whisper]\, (sumber: BlockBeats).
XAI1,72%
GROK-7,13%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 7
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
BudgetValidator
· 3jam yang lalu
Infrastruktur suara mulai distandarisasi, menguntungkan pengembang kecil dan menengah
Lihat AsliBalas0
MirrorBallGazingAtTheSky
· 5jam yang lalu
Satu set tumpukan mendukung tiga skenario, Elon Musk ini benar-benar bermain dengan reuse 6
Lihat AsliBalas0
AirdropSidequest
· 6jam yang lalu
WebSocket cocok untuk aliran data, REST cocok untuk pengarsipan, desain yang masuk akal
Lihat AsliBalas0
CandlewickKid
· 11jam yang lalu
xAI akhirnya memisahkan tumpukan suara, pengembang sangat gembira
Lihat AsliBalas0
RetroRadioSignal
· 11jam yang lalu
Grok memiliki mode ganda STT dengan REST + WebSocket, mengakomodasi baik batch maupun real-time, cukup detail
Lihat AsliBalas0
PatinaTradingBell
· 11jam yang lalu
Stack audio yang digunakan oleh Tesla dan Starlink harus telah melalui pengujian keandalan
Lihat AsliBalas0
OracleBabysitter
· 11jam yang lalu
Alat aksesibilitas +1, inilah kehangatan yang seharusnya dimiliki oleh teknologi
Lihat AsliBalas0