ME News relata que a xAI lançou oficialmente duas APIs de áudio independentes: Grok STT e Grok TTS. Grok STT possui alta precisão, baixa latência, suporta processamento em lote via REST, transcrição em tempo real via WebSocket, com marcações de tempo ao nível de palavra, separação de falantes, múltiplos canais e normalização inteligente de texto invertido, cobrindo mais de 25 idiomas; 0,10 dólares por hora em processamento em lote, 0,20 dólares por hora em streaming, com taxa de erro de palavra inferior à de vários concorrentes. Grok TTS oferece voz rápida, natural e com controle granular por meio de etiquetas, com preço de 4,20 dólares por milhão de caracteres. Ambas baseadas na mesma pilha tecnológica, utilizadas pelo Grok Voice, Tesla e Starlink.

MeNews

2026-05-25 20:56:03

Geração de resumo em curso

ME News Notícias, 18 de abril (UTC+8), a xAI anunciou recentemente o lançamento oficial de duas APIs de áudio independentes: Grok Speech-to-Text (STT) e Grok Text-to-Speech (TTS).
O Grok STT oferece serviços de transcrição com alta precisão e baixa latência, suportando processamento em lote via API REST e transcrição em fluxo em tempo real via API WebSocket, além de possuir marcações de tempo ao nível de palavra, separação de falantes, suporte a múltiplos canais e funcionalidades inteligentes de normalização reversa de texto.
O artigo menciona que, em testes de referência em áreas como chamadas telefónicas, reuniões, vídeos/podcasts, sua taxa de erro de palavra supera modelos comerciais principais como ElevenLabs, Deepgram e AssemblyAI.
Este serviço suporta mais de 25 idiomas, com preços de 0,10 dólares por hora para processamento em lote e 0,20 dólares por hora para streaming.
O Grok TTS pode gerar vozes rápidas, naturais e expressivas, suportando controlo granular através de simples etiquetas de voz, com um preço de 4,20 dólares por milhão de caracteres.
As duas APIs são baseadas na mesma stack tecnológica que alimenta o Grok Voice, veículos Tesla e suporte ao cliente Starlink. (Fonte: InFoQ)

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

6 gostos

Recompensa
6
5
1
Partilhar

Comentar

Adicionar um comentário

GateUser-99725296

· 7h atrás

Este preço consegue subir? Veja como Azure e AWS vão reagir.

Ver originalResponder0

0xLateBreakfast

· 7h atrás

O preço em lote e em fluxo é o dobro, o negócio precisa fazer uma boa contabilidade

Ver originalResponder0

RiskOffRina

· 7h atrás

O suporte multicanal é fundamental para a transcrição de reuniões, finalmente não preciso alinhar manualmente.

Ver originalResponder0

WalletHealthInspector

· 7h atrás

Grok Voice usa exatamente essas duas APIs, finalmente foram separadas

Ver originalResponder0

MosaicBowtieRealm

· 7h atrás

Que parâmetros específicos podem ser controlados pelas etiquetas de controle de granularidade fina, velocidade de fala, tom ou emoção?

Ver originalResponder0

Tópicos em destaque
Ver mais
#
StockTradingChallengeUpTo17000U
16.18M Popularidade
#
USStrikesIran
9.3M Popularidade
#
IsraelStrikesIranBTCPlunges
49.26K Popularidade
#
2gGoldEvery10Minutes
3.06M Popularidade
#
InstitutionalCapitalRotatesFromBTCToHYPEAndXRP
14.32M Popularidade

Fixado

xAI lança API de conversão de voz para texto Grok e de texto para voz

Tópicos em destaque

StockTradingChallengeUpTo17000U

USStrikesIran

IsraelStrikesIranBTCPlunges

2gGoldEvery10Minutes

InstitutionalCapitalRotatesFromBTCToHYPEAndXRP

Fixado