Berita ME News melaporkan bahwa xAI meluncurkan dua API audio independen: Grok STT dan Grok TTS, yang berasal dari tumpukan audio yang sama, mendukung Grok Voice, sistem onboard Tesla, dan layanan pelanggan Starlink. STT menyediakan transkripsi batch melalui REST dan streaming waktu nyata melalui WebSocket, dengan cap waktu tingkat kata, pemisahan pembicara, multi-saluran, dan normalisasi teks terbalik, mencakup lebih dari 25 bahasa; TTS mendukung label internal untuk emosi dan intonasi. Selain itu, dipublikasikan perbandingan WER, di mana Grok unggul dalam berbagai skenario, belum ada pengujian ulang dari pihak ketiga. Harga: STT batch $0,10 per jam, streaming $0,20 per jam, TTS $4,20 per juta karakter.

MeNews

2026-05-26 13:41:03

Pembuatan abstrak sedang berlangsung

Berita ME News, 18 April (UTC+8), menurut pemantauan Beating dari Dongcha, xAI meluncurkan dua API audio independen: Grok Speech to Text dan Grok Text to Speech. Keduanya berasal dari rangkaian audio yang mendukung Grok Voice, sistem onboard Tesla, dan layanan pelanggan Starlink, kali ini dibuka dalam bentuk endpoint terpisah, sehingga pengembang dapat langsung mengintegrasikan proxy suara, transkripsi real-time, alat aksesibilitas, dan aplikasi podcast. STT menyediakan dua mode. API REST digunakan untuk transkripsi batch file audio besar dengan pengembalian dalam hitungan milidetik; API WebSocket ditujukan untuk aliran suara real-time. Kemampuan tambahan termasuk cap waktu tingkat kata, pemisahan pembicara (diarization), pengenalan terpisah untuk multi-channel, dan Inverse Text Normalization, yaitu otomatis mengubah angka, tanggal, dan mata uang dalam percakapan menjadi teks terstruktur yang standar. Mendukung lebih dari 25 bahasa, dapat beralih secara mulus dalam percakapan. xAI juga mengumumkan perbandingan tingkat kesalahan kata (WER, semakin rendah semakin baik): dalam skenario umum Grok 6,9%, ElevenLabs 9,0%, Deepgram 11,0%, AssemblyAI 12,9%; perbedaan dalam "pengidentifikasian entitas panggilan telepon" semakin besar, Grok 5,0%, masing-masing tiga penyedia lainnya 12,0%, 13,5%, 21,3%. Dalam skenario umum seperti rapat, podcast video, dan panggilan telepon, Grok juga sedikit unggul. Data ini dipublikasikan oleh xAI berdasarkan pengujian internal, belum ada pengujian ulang dari pihak ketiga. Untuk harga, STT batch sebesar 0,10 dolar AS per jam, streaming 0,20 dolar AS per jam; TTS sebesar 4,20 dolar AS per 1 juta karakter. TTS mendukung penggunaan Tag Speech inline untuk mengontrol emosi dan intonasi, seperti \[laugh\], \[sigh\], \[whisper\], \ (sumber: BlockBeats)

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

10 Suka

Hadiah
10
10
3
Bagikan

Komentar

Tambahkan komentar

InstantNoodle-LevelResearcher

· 4jam yang lalu

Penggunaan REST untuk transkripsi massal dan WebSocket untuk real-time, desain arsitekturnya cukup praktis.

Lihat AsliBalas0

GateUser-f85bc167

· 4jam yang lalu

Tunggu skor nyata, lihat saja benchmark xAI

Lihat AsliBalas0

MarginMom

· 4jam yang lalu

Grok TTS mendukung label emosi cukup menarik, apakah nanti pengisi suara AI bisa menambahkan nada menangis?

Lihat AsliBalas0

GateUser-f92ba9fa

· 4jam yang lalu

25+ bahasa cakupan, bagaimana hasilnya dalam bahasa Mandarin, sudah ada yang menguji belum

Lihat AsliBalas0

Lightning-FastComposure

· 4jam yang lalu

Apa itu teknologi canggih normalisasi teks terbalik, ada yang paham bisa jelaskan lebih detail?

Lihat AsliBalas0

HaiyanColdWallet

· 4jam yang lalu

Stempel waktu tingkat kata + pemisahan pembicara, catatan rapat membuat orang gila bahagia

Lihat AsliBalas0

QuantsAndCats

· 5jam yang lalu

4.2 dolar/ juta karakter TTS, apakah lebih murah atau lebih mahal daripada ElevenLabs?

Lihat AsliBalas0

AmberTeaSwirl

· 5jam yang lalu

STT aliran 0,2 dolar AS/jam, skenario subtitle waktu nyata harus bisa berjalan

Lihat AsliBalas0

MultisigOnRocks

· 5jam yang lalu

Tumpukan audio yang sama diberikan ke Grok Voice, Tesla, Starlink, ekosistem Musk telah tertutup.

Lihat AsliBalas0

BalanceScreenshotAfterTheRain

· 5jam yang lalu

xAI gelombang API audio ini datang agak mendadak, apakah harga STT 0,1 dolar/jam dianggap wajar?

Lihat AsliBalas0

Lihat Lebih Banyak

Topik Trending
Lihat Lebih Banyak
#
StockTradingChallengeUpTo17000U
16.21M Popularitas
#
USStrikesIran
9.31M Popularitas
#
IsraelStrikesIranBTCPlunges
49.45K Popularitas
#
GatePredictionMarketAddsSmartMoneyTracking
13.06M Popularitas
#
InstitutionalCapitalRotatesFromBTCToHYPEAndXRP
14.33M Popularitas

Disematkan

peta situs

xAI membuka API audio Grok STT dan TTS, tingkat kesalahan kata keseluruhan STT ditekan hingga 6,9%

Topik Trending

StockTradingChallengeUpTo17000U

USStrikesIran

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

InstitutionalCapitalRotatesFromBTCToHYPEAndXRP

Disematkan