Berita ME News, 18 April (UTC+8), menurut pemantauan Beating dari Dongcha, xAI meluncurkan dua API audio independen: Grok Speech to Text dan Grok Text to Speech. Keduanya berasal dari rangkaian audio yang mendukung Grok Voice, sistem onboard Tesla, dan layanan pelanggan Starlink, kali ini dibuka dalam bentuk endpoint terpisah, sehingga pengembang dapat langsung mengintegrasikan proxy suara, transkripsi real-time, alat aksesibilitas, dan podcast. STT menyediakan dua mode. API REST digunakan untuk transkripsi batch file audio besar dengan waktu respons milidetik; API WebSocket ditujukan untuk aliran suara real-time. Kemampuan tambahan termasuk cap waktu tingkat kata, pemisahan pembicara (diarization), pengenalan terpisah untuk multi-channel, dan Inverse Text Normalization, yaitu otomatis mengubah angka, tanggal, dan mata uang dalam percakapan menjadi teks terstruktur yang standar. Mendukung lebih dari 25 bahasa, dapat beralih secara mulus dalam percakapan. xAI juga mengumumkan perbandingan tingkat kesalahan kata (WER, semakin rendah semakin baik): secara keseluruhan Grok 6,9%, ElevenLabs 9,0%, Deepgram 11,0%, AssemblyAI 12,9%; perbedaan dalam "pengakuan entitas panggilan telepon" semakin besar, Grok 5,0%, masing-masing tiga lainnya 12,0%, 13,5%, 21,3%. Dalam skenario umum seperti rapat, podcast video, dan panggilan telepon, Grok juga sedikit unggul. Data ini dipublikasikan oleh xAI berdasarkan pengujian internal, belum ada pengujian ulang dari pihak ketiga. Untuk harga, STT batch $0,10 per jam, streaming $0,20 per jam; TTS sebesar $4,20 per 1 juta karakter. TTS mendukung penggunaan Tag Speech inline untuk mengontrol emosi dan intonasi, seperti \[laugh\], \[sigh\], \[whisper\], \ (sumber: BlockBeats)

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

12 Suka

Hadiah
12
5
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Post-RainTvl

· 5jam yang lalu

Elon Musk bermain catur ini dengan sangat besar, kecepatan infrastruktur xAI lebih cepat dari yang dibayangkan

Lihat AsliBalas0

TacoTreasury

· 8jam yang lalu

Grok bagian pengenalan suara ini cukup mendalam, layanan pelanggan di mobil + satelit semuanya menggunakan satu sistem yang sama, stabilitasnya seharusnya bisa diandalkan

Lihat AsliBalas0

GateUser-7cb48814

· 9jam yang lalu

Transkripsi waktu nyata WebSocket, langsung dapat digunakan untuk skenario subtitle siaran langsung

Lihat AsliBalas0

TheProphetOfToast

· 9jam yang lalu

Sistem onboard Tesla berasal dari sumber yang sama, ekosistem interaksi suara kendaraan mungkin perlu terintegrasi

Lihat AsliBalas0

GateUser-e4fb1fbe

· 9jam yang lalu

Satu rangkaian audio yang sama mendukung begitu banyak skenario, penggunaan kembali proyek dilakukan dengan sangat baik

Lihat AsliBalas0

Topik Trending
Lihat Lebih Banyak
#
StockTradingChallengeUpTo17000U
16.23M Popularitas
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
817.54K Popularitas
#
IsraelStrikesIranBTCPlunges
49.57K Popularitas
#
GatePredictionMarketAddsSmartMoneyTracking
13.2M Popularitas
#
MicronMarketCapBreaks1Trillion
36.87K Popularitas

Disematkan

peta situs

xAI membuka API audio Grok STT dan TTS, tingkat kesalahan kata keseluruhan STT ditekan menjadi 6,9%

Topik Trending

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

Disematkan