ME News reporta que a xAI lançou duas APIs de áudio independentes: Grok STT e Grok TTS, derivadas da mesma pilha de áudio, suportando Grok Voice, sistemas de bordo da Tesla e atendimento ao cliente Starlink, entre outros. O STT oferece transcrição em lote via REST e fluxo em tempo real via WebSocket, com marcações de tempo por palavra, separação de falantes, múltiplos canais e normalização reversa de texto, cobrindo mais de 25 idiomas; O TTS suporta etiquetas internas de emoção e prosódia. E divulgou uma comparação de WER, onde o Grok lidera em múltiplos cenários, sem testes de terceiros até o momento. Preços: processamento em lote do STT a 0,10 dólares por hora, streaming a 0,20 dólares por hora, TTS a 4,20 dólares por milhão de caracteres.

MeNews

2026-05-27 10:24:48

Geração do resumo em andamento

ME News Notícias, 18 de abril (UTC+8), de acordo com o monitoramento do Beating, a xAI lançou duas APIs de áudio independentes: Grok Speech to Text e Grok Text to Speech. Ambas vêm da mesma pilha de áudio que suporta Grok Voice, o sistema de bordo da Tesla e o atendimento ao cliente Starlink, agora disponibilizadas como endpoints independentes, permitindo que desenvolvedores integrem diretamente em aplicações de proxy de voz, transcrição em tempo real, ferramentas de acessibilidade e podcasts. O STT oferece dois modos. API REST para transcrição em lote de arquivos de áudio grandes, com retorno em milissegundos; API WebSocket voltada para fluxo de voz em tempo real. Recursos adicionais incluem marcações de tempo por palavra, diarização de falantes, reconhecimento em múltiplos canais e Normalização de Texto Inversa, ou seja, transformar números, datas e moedas falados em textos estruturados padronizados. O suporte linguístico cobre mais de 25 idiomas, com troca fluida durante diálogos. A xAI também divulgou uma comparação de taxas de erro de palavras (WER, quanto menor melhor): cenário geral Grok 6,9%, ElevenLabs 9,0%, Deepgram 11,0%, AssemblyAI 12,9%; a diferença na "Reconhecimento de entidades em chamadas telefônicas" foi ainda maior, Grok 5,0%, enquanto as outras três são 12,0%, 13,5% e 21,3%. Em cenários comuns como reuniões, podcasts em vídeo e chamadas telefônicas, Grok também mantém uma leve vantagem. Esses números foram testados e divulgados pela própria xAI, sem validação de terceiros. Quanto aos preços, o processamento em lote de STT custa US$0,10 por hora, streaming US$0,20 por hora; TTS custa US$4,20 por milhão de caracteres. O TTS suporta controle de emoções e entonações usando tags de fala inline, como \[laugh\], \[sigh\], \[whisper\], \ (Fonte: BlockBeats)

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

11 Curtidas

Recompensa
11
12
1
Compartilhar

Comentário

Adicionar um comentário

WhitepaperByTheRoadside

· 2h atrás

Marcações de tempo por palavra + separação de falantes, cenário de ata de reunião está ficando insano

Ver originalResponder0

Lime-ColoredStop-LossLine

· 13h atrás

Processamento em lote 0.1 dólar/hora é muito bom, mas o preço de fluxo que dobra claramente te força a optar por volume

Ver originalResponder0

GateUser-83a2dd8a

· 13h atrás

25+ cobertura de idiomas, alguém já testou como fica o efeito em chinês?

Ver originalResponder0

TheProphetOfToast

· 15h atrás

Etiquetas internas de ritmo emocional, finalmente não preciso mais ouvir o robô lendo o roteiro

Ver originalResponder0

GateUser-b665e41c

· 16h atrás

Integração do sistema de bordo da Tesla, qual é a latência de interação por voz ao dirigir, em milissegundos?

Ver originalResponder0

PunkRiskMgr

· 16h atrás

O suporte ao cliente da Starlink já está em uso, regiões rurais com sotaque foram reconhecidas como um grande recurso de dados de treinamento

Ver originalResponder0

ToBeHonest,You'llLose

· 16h atrás

Da revolução dos LLM ao reconhecimento de voz, a guerra multimodal oficialmente entra na segunda metade

Ver originalResponder0

HashbrownHero

· 16h atrás

Transcrição em massa desse preço, grupos de legendas e anfitriões de podcasts provavelmente precisarão migrar em massa

Ver originalResponder0

GateUser-bee672a5

· 16h atrás

Esperar uma comunidade de código aberto reproduzir o benchmark WER do xAI costuma questionar primeiro

Ver originalResponder0

TwoFactorZen

· 16h atrás

REST + modo duplo WebSocket, máxima facilidade para desenvolvedores

Ver originalResponder0

Ver projetos

Tendências
Ver projetos
#
StockTradingChallengeUpTo17000U
16.03M Popularidade
#
IsraelStrikesIranBTCPlunges
49.91K Popularidade
#
GatePredictionMarketAddsSmartMoneyTracking
13.25M Popularidade
#
2gGoldEvery10Minutes
3.09M Popularidade
#
#DailyPolymarketHotspot
446.61K Popularidade

Fixado

sitemap

xAI abre API de áudio Grok STT e TTS, taxa de erro geral de palavras do STT reduzida para 6,9%

Tendências

StockTradingChallengeUpTo17000U

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

2gGoldEvery10Minutes

#DailyPolymarketHotspot

Fixado