Berita ME News, 18 April (UTC+8), menurut pemantauan Beating dari Dongcha, xAI meluncurkan dua API audio independen: Grok Speech to Text dan Grok Text to Speech. Keduanya berasal dari rangkaian audio yang mendukung Grok Voice, sistem onboard Tesla, dan layanan pelanggan Starlink, kali ini dibuka dalam bentuk endpoint terpisah, sehingga pengembang dapat langsung mengintegrasikan proxy suara, transkripsi real-time, alat aksesibilitas, dan podcast. STT menyediakan dua mode. API REST digunakan untuk transkripsi batch file audio besar dengan pengembalian dalam milidetik; API WebSocket ditujukan untuk aliran suara real-time. Kemampuan tambahan termasuk cap waktu tingkat kata, pemisahan pembicara (diarization), pengenalan terpisah untuk multi-channel, dan Inverse Text Normalization, yaitu otomatis mengubah angka, tanggal, dan mata uang dalam percakapan menjadi teks terstruktur yang standar. Mendukung lebih dari 25 bahasa, dapat beralih secara mulus dalam percakapan. xAI juga mengumumkan perbandingan tingkat kesalahan kata (WER, semakin rendah semakin baik): dalam skenario umum Grok 6,9%, ElevenLabs 9,0%, Deepgram 11,0%, AssemblyAI 12,9%; perbedaan dalam "pengakuan entitas panggilan telepon" semakin besar, Grok 5,0%, masing-masing tiga penyedia lainnya 12,0%, 13,5%, 21,3%. Dalam skenario umum seperti rapat, podcast video, dan panggilan telepon, Grok juga sedikit unggul. Data ini dipublikasikan oleh xAI berdasarkan pengujian internal, belum ada pengujian ulang dari pihak ketiga. Untuk harga, STT batch sebesar 0,10 dolar AS per jam, streaming 0,20 dolar AS per jam; TTS sebesar 4,20 dolar AS per 1 juta karakter. TTS mendukung penggunaan Tag Suara inline untuk mengontrol emosi dan intonasi, seperti \[laugh]\, \[sigh]\, \[whisper]\, (sumber: BlockBeats).

XAI1,72%

GROK-7,13%

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

7 Suka

Hadiah
7
7
Posting ulang
Bagikan

Komentar

Tambahkan komentar

BudgetValidator

· 3jam yang lalu

Infrastruktur suara mulai distandarisasi, menguntungkan pengembang kecil dan menengah

Lihat AsliBalas0

MirrorBallGazingAtTheSky

· 5jam yang lalu

Satu set tumpukan mendukung tiga skenario, Elon Musk ini benar-benar bermain dengan reuse 6

Lihat AsliBalas0

AirdropSidequest

· 6jam yang lalu

WebSocket cocok untuk aliran data, REST cocok untuk pengarsipan, desain yang masuk akal

Lihat AsliBalas0

CandlewickKid

· 11jam yang lalu

xAI akhirnya memisahkan tumpukan suara, pengembang sangat gembira

Lihat AsliBalas0

RetroRadioSignal

· 11jam yang lalu

Grok memiliki mode ganda STT dengan REST + WebSocket, mengakomodasi baik batch maupun real-time, cukup detail

Lihat AsliBalas0

PatinaTradingBell

· 11jam yang lalu

Stack audio yang digunakan oleh Tesla dan Starlink harus telah melalui pengujian keandalan

Lihat AsliBalas0

OracleBabysitter

· 11jam yang lalu

Alat aksesibilitas +1, inilah kehangatan yang seharusnya dimiliki oleh teknologi

Lihat AsliBalas0

Topik Trending
Lihat Lebih Banyak
#
StockTradingChallengeUpTo17000U
16.23M Popularitas
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
820.08K Popularitas
#
IsraelStrikesIranBTCPlunges
49.57K Popularitas
#
GatePredictionMarketAddsSmartMoneyTracking
13.21M Popularitas
#
MicronMarketCapBreaks1Trillion
38.29K Popularitas

Disematkan

peta situs

xAI membuka API audio Grok STT dan TTS, tingkat kesalahan kata keseluruhan STT ditekan menjadi 6,9%

Topik Trending

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

Disematkan