ME News relata que a xAI lançou duas APIs de áudio independentes: Grok STT e Grok TTS, ambas originadas do mesmo stack de áudio, suportando Grok Voice, sistemas de bordo da Tesla e atendimento ao cliente Starlink, entre outros. O STT oferece transcrição em lote via REST e fluxo em tempo real via WebSocket, com marcações de tempo a nível de palavra, separação de falantes, múltiplos canais e normalização inversa de texto, cobrindo mais de 25 idiomas; O TTS suporta etiquetas inline de emoção e prosódia. E divulgou uma comparação de WER, mostrando que o Grok lidera em múltiplos cenários, sem testes de terceiros até o momento. Preços: processamento em lote do STT a 0,10 dólares por hora, streaming a 0,20 dólares por hora, TTS a 4,20 dólares por milhão de caracteres.

MeNews

2026-05-26 17:23:03

Geração de resumo em curso

ME News Notícias, 18 de abril (UTC+8), de acordo com o monitoramento do Beating, a xAI lançou duas APIs de áudio independentes: Grok Speech to Text e Grok Text to Speech. Ambas vêm da mesma pilha de áudio que suporta Grok Voice, o sistema de bordo da Tesla e o atendimento ao cliente Starlink, agora disponibilizadas como endpoints independentes, permitindo que desenvolvedores integrem diretamente em aplicações de agentes de voz, transcrição em tempo real, ferramentas de acessibilidade e podcasts. O STT oferece dois modos. A API REST é usada para transcrição em lote de grandes arquivos de áudio, com retorno em milissegundos; a API WebSocket é voltada para fluxo de voz em tempo real. Recursos adicionais incluem marcações de tempo por palavra, diarização de falantes, reconhecimento em múltiplos canais e Normalização de Texto Inversa, ou seja, transformar números, datas e moedas falados em textos estruturados padronizados. O suporte linguístico cobre mais de 25 idiomas, com troca fluida durante diálogos. A xAI também divulgou uma comparação de taxas de erro de palavra (WER, quanto menor, melhor): em cenários gerais, Grok 6,9%, ElevenLabs 9,0%, Deepgram 11,0%, AssemblyAI 12,9%; a diferença na "Reconhecimento de entidades em chamadas telefônicas" é ainda maior, Grok 5,0%, enquanto as outras três são 12,0%, 13,5% e 21,3%. Em cenários comuns como reuniões, podcasts em vídeo e chamadas telefônicas, o Grok também mantém uma leve vantagem. Esses números foram testados e divulgados pela própria xAI, sem validação de terceiros. Quanto aos preços, o processamento em lote de STT custa US$ 0,10 por hora, streaming US$ 0,20 por hora; TTS custa US$ 4,20 por milhão de caracteres. O TTS suporta controle de emoção e entonação usando tags de fala inline, como \[laugh\], \[sigh\], \[whisper\], \ (Fonte: BlockBeats)

XAI-1,74%

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

10 gostos

Recompensa
10
6
Republicar
Partilhar

Comentar

Adicionar um comentário

SudoSatoshi

· 3h atrás

Cobertura multilíngue de mais de 25+, mas qual é a qualidade das línguas menos comuns?
A média do WER parece boa, mas para línguas de cauda longa pode ainda ser um desastre.

Ver originalResponder0

AirdropUnderTheNeonBridge

· 3h atrás

Etiquetas embutidas de emoção e ritmo? TTS finalmente não é mais uma máquina de leitura, pode criar vozes para audiobooks ou diálogos de NPCs em jogos com criatividade.

Ver originalResponder0

AirdropCartographer

· 3h atrás

Multi-canal + separação de falantes, ferramenta para transcrição de gravações de reuniões, mas com um custo de streaming de 0,2 dólares por hora, mesmo em reuniões longas não é barato.

Ver originalResponder0

PerpPulse

· 3h atrás

Grok Voice, Tesla a bordo, Starlink suporte ao cliente usam a mesma pilha de áudio, Elon Musk está ficando cada vez melhor em jogar esse ciclo fechado de ecossistema.

Ver originalResponder0

MintLaterMaybe

· 3h atrás

O que é a normalização de texto invertido? Converter números em algarismos arábicos? Essa função é bastante importante para o pós-processamento de transcrição de voz, evitando que você precise escrever expressões regulares.

Ver originalResponder0

CliffsideAncientPineAndRolling

· 3h atrás

xAI esta ofensiva de API de áudio está a atuar com força, STT em fluxo contínuo a 0,2 dólares por hora, TTS a 4,2 dólares por milhão de caracteres, a estratégia de preços claramente direcionada para uso comercial em grande escala.

Ver originalResponder0

Tópicos em destaque
Ver mais
#
StockTradingChallengeUpTo17000U
16.22M Popularidade
#
USStrikesIran
9.31M Popularidade
#
IsraelStrikesIranBTCPlunges
49.49K Popularidade
#
GatePredictionMarketAddsSmartMoneyTracking
13.8M Popularidade
#
InstitutionalCapitalRotatesFromBTCToHYPEAndXRP
14.33M Popularidade

Fixado

xAI abre API de áudio Grok STT e TTS, taxa de erro geral de palavras do STT reduzida para 6,9%

Tópicos em destaque

StockTradingChallengeUpTo17000U

USStrikesIran

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

InstitutionalCapitalRotatesFromBTCToHYPEAndXRP

Fixado