ME News reporta que a xAI lançou duas APIs de áudio independentes: Grok STT e Grok TTS, derivadas da mesma pilha de áudio, suportando Grok Voice, sistemas de bordo da Tesla e atendimento ao cliente Starlink, entre outros. O STT oferece transcrição em lote via REST e fluxo em tempo real via WebSocket, com marcações de tempo por palavra, separação de falantes, múltiplos canais e normalização reversa de texto, cobrindo mais de 25 idiomas; O TTS suporta etiquetas internas de emoção e prosódia. E divulgou uma comparação de WER, onde Grok lidera em múltiplos cenários, sem testes de terceiros até o momento. Preços: processamento em lote do STT a 0,10 dólares por hora, streaming a 0,20 dólares por hora, TTS a 4,20 dólares por milhão de caracteres.

MeNews

2026-05-26 13:41:03

Geração do resumo em andamento

ME News Notícias, 18 de abril (UTC+8), de acordo com o monitoramento do Beating, a xAI lançou duas APIs de áudio independentes: Grok Speech to Text e Grok Text to Speech. Ambas vêm da mesma pilha de áudio que suporta Grok Voice, o sistema de bordo da Tesla e o atendimento ao cliente Starlink, agora disponibilizadas como endpoints independentes, permitindo que desenvolvedores integrem diretamente em aplicativos de proxy de voz, transcrição em tempo real, ferramentas de acessibilidade e podcasts. O STT oferece dois modos. A API REST é usada para transcrição em lote de arquivos de áudio grandes, com retorno em milissegundos; a API WebSocket é voltada para fluxo de voz em tempo real. Recursos adicionais incluem marcação de tempo por palavra, diarização de falantes, reconhecimento separado por canais múltiplos, além de Normalização de Texto Inversa, que formata automaticamente números, datas e moedas presentes na fala em textos estruturados padronizados. O suporte linguístico abrange mais de 25 idiomas, com troca contínua durante a diálogo. A xAI também divulgou uma comparação de taxas de erro de palavra (WER, quanto menor, melhor): cenário geral Grok 6,9%, ElevenLabs 9,0%, Deepgram 11,0%, AssemblyAI 12,9%; a diferença na "Reconhecimento de entidades em chamadas telefônicas" foi ainda maior, Grok 5,0%, enquanto as outras três empresas apresentaram 12,0%, 13,5% e 21,3%, respectivamente. Em cenários comuns como reuniões, podcasts em vídeo e chamadas telefônicas, Grok também mantém uma leve vantagem. Esses números foram testados e divulgados pela própria xAI, sem validação de terceiros. Quanto aos preços, o processamento em lote de STT custa US$0,10 por hora, streaming US$0,20 por hora; TTS custa US$4,20 por milhão de caracteres. O TTS suporta controle de emoção e entonação usando tags de fala inline, como \[laugh\], \[sigh\], \[whisper\], \ (Fonte: BlockBeats)

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

10 Curtidas

Recompensa
10
10
3
Compartilhar

Comentário

Adicionar um comentário

InstantNoodle-LevelResearcher

· 4h atrás

Transcrição em lote usando REST, em tempo real usando WebSocket, o design da arquitetura é bastante prático.

Ver originalResponder0

GateUser-f85bc167

· 4h atrás

Espere por uma pontuação real, apenas olhe o benchmark do xAI.

Ver originalResponder0

MarginMom

· 4h atrás

Grok TTS suporta etiquetas emocionais, é interessante, será que no futuro a dublagem por IA poderá ter tom de choro?

Ver originalResponder0

GateUser-f92ba9fa

· 4h atrás

25+ idiomas cobertos, alguém já testou como fica o efeito em chinês?

Ver originalResponder0

Lightning-FastComposure

· 4h atrás

O que é a tecnologia avançada de normalização de texto invertido, alguém que entende pode explicar?

Ver originalResponder0

HaiyanColdWallet

· 5h atrás

Carimbo de tempo por palavra + separação de falantes, registro de reunião deixa os entusiastas extasiados

Ver originalResponder0

QuantsAndCats

· 5h atrás

4.2 dólares por milhão de caracteres de TTS, é mais barato ou mais caro do que ElevenLabs?

Ver originalResponder0

AmberTeaSwirl

· 5h atrás

Transcrição contínua (STT) 0,2 dólar/hora, o cenário de legendas em tempo real deve ser viável

Ver originalResponder0

MultisigOnRocks

· 5h atrás

A mesma pilha de áudio alimenta Grok Voice, Tesla, Starlink, Elon Musk criou um ecossistema fechado.

Ver originalResponder0

BalanceScreenshotAfterTheRain

· 5h atrás

xAI, essa rodada de API de áudio veio um pouco de surpresa, o preço de STT de 0,1 dólar por hora é considerado justo?

Ver originalResponder0

Ver projetos

Tendências
Ver projetos
#
StockTradingChallengeUpTo17000U
16.21M Popularidade
#
USStrikesIran
9.31M Popularidade
#
IsraelStrikesIranBTCPlunges
49.45K Popularidade
#
GatePredictionMarketAddsSmartMoneyTracking
13.06M Popularidade
#
InstitutionalCapitalRotatesFromBTCToHYPEAndXRP
14.33M Popularidade

Fixado

sitemap

xAI abre API de áudio Grok STT e TTS, taxa de erro geral de palavras do STT reduzida para 6,9%

Tendências

StockTradingChallengeUpTo17000U

USStrikesIran

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

InstitutionalCapitalRotatesFromBTCToHYPEAndXRP

Fixado