ME News Notícias, 18 de abril (UTC+8), de acordo com o monitoramento do Beating, a xAI lançou duas APIs de áudio independentes: Grok Speech to Text e Grok Text to Speech. Ambas vêm do mesmo stack de áudio que suporta Grok Voice, o sistema de bordo da Tesla e o atendimento ao cliente Starlink, agora disponibilizadas como endpoints independentes, permitindo que desenvolvedores integrem diretamente em aplicações de proxy de voz, transcrição em tempo real, ferramentas de acessibilidade e podcasts. O STT oferece dois modos. A API REST é usada para transcrição em lote de arquivos de áudio grandes, com retorno em milissegundos; a API WebSocket é voltada para fluxo de voz em tempo real. Recursos adicionais incluem marcações de tempo por palavra, diarização de falantes, reconhecimento separado por múltiplos canais, além de Normalização de Texto Inversa, que formata automaticamente números, datas e moedas presentes na fala em textos estruturados padronizados. O suporte linguístico abrange mais de 25 idiomas, com troca fluida durante diálogos. A xAI também divulgou uma comparação de taxas de erro de palavra (WER, quanto menor, melhor): em cenários gerais, Grok 6,9%, ElevenLabs 9,0%, Deepgram 11,0%, AssemblyAI 12,9%; a diferença na "Reconhecimento de entidades em chamadas telefônicas" é ainda maior, Grok 5,0%, enquanto as outras três são 12,0%, 13,5% e 21,3%. Em cenários comuns como reuniões, podcasts em vídeo e chamadas telefônicas, Grok também mantém uma leve vantagem. Esses números foram testados e divulgados pela própria xAI, sem validação de terceiros. Quanto aos preços, o processamento em lote de STT custa US$ 0,10 por hora, streaming US$ 0,20 por hora; TTS custa US$ 4,20 por milhão de caracteres. O TTS suporta controle de emoção e entonação usando tags de fala inline, como \[laugh\], \[sigh\], \[whisper\], \ (Fonte: BlockBeats)

XAI2,07%

GROK-8,45%

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

7 Curtidas

Recompensa
7
9
Repostar
Compartilhar

Comentário

Adicionar um comentário

MosaicButterfly

· 1h atrás

Ponto final independente é muito mais flexível do que estar preso ao chat do Grok

Ver originalResponder0

FloatingMirrorSphere

· 2h atrás

Espere por um preço, não seja mais um nobre da API

Ver originalResponder0

BudgetValidator

· 6h atrás

A infraestrutura de voz começa a padronizar, beneficiando desenvolvedores de pequeno e médio porte

Ver originalResponder0

MirrorBallGazingAtTheSky

· 8h atrás

A mesma pilha suporta três cenários, Elon Musk realmente manda bem na reutilização.

Ver originalResponder0

AirdropSidequest

· 9h atrás

WebSocket é adequado para streaming, REST é adequado para arquivamento, design inteligente

Ver originalResponder0

CandlewickKid

· 13h atrás

xAI finalmente separou a pilha de voz, os desenvolvedores estão em êxtase

Ver originalResponder0

RetroRadioSignal

· 13h atrás

O STT do Grok implementou um modo duplo com REST + WebSocket, cuidando tanto de processamento em lote quanto em tempo real, bastante detalhado.

Ver originalResponder0

PatinaTradingBell

· 14h atrás

A pilha de áudio usada pelo Tesla e pelo Starlink, deve ter sua confiabilidade comprovada.

Ver originalResponder0

OracleBabysitter

· 14h atrás

Ferramentas de acessibilidade +1, essa é a verdadeira essência da tecnologia com empatia

Ver originalResponder0

Ver projetos

Tendências
Ver projetos
#
StockTradingChallengeUpTo17000U
16.26M Popularidade
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
822.59K Popularidade
#
IsraelStrikesIranBTCPlunges
49.67K Popularidade
#
GatePredictionMarketAddsSmartMoneyTracking
13.21M Popularidade
#
MicronMarketCapBreaks1Trillion
39.76K Popularidade

Fixado

sitemap

xAI abre API de áudio Grok STT e TTS, taxa de erro geral de palavras do STT reduzida para 6,9%

Tendências

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

Fixado