ME News Notícias, 18 de abril (UTC+8), de acordo com o monitoramento do Beating, a xAI lançou duas APIs de áudio independentes: Grok Speech to Text e Grok Text to Speech. Ambas vêm da mesma pilha de áudio que suporta Grok Voice, o sistema de bordo da Tesla e o atendimento ao cliente Starlink, agora disponibilizadas como endpoints independentes, permitindo que desenvolvedores integrem diretamente em aplicativos de proxy de voz, transcrição em tempo real, ferramentas de acessibilidade e podcasts. O STT oferece dois modos. A API REST é usada para transcrição em lote de grandes arquivos de áudio, com retorno em milissegundos; a API WebSocket é voltada para fluxo de voz em tempo real. Recursos adicionais incluem marcação de tempo por palavra, diarização de falantes, reconhecimento de múltiplos canais separadamente, e Normalização de Texto Inversa, ou seja, transformar números, datas e moedas falados em textos estruturados padronizados. O suporte de idiomas cobre mais de 25 línguas, podendo alternar de forma fluida durante a conversa. A xAI também divulgou uma comparação de taxas de erro de palavra (WER, quanto menor, melhor): em cenários gerais, Grok 6,9%, ElevenLabs 9,0%, Deepgram 11,0%, AssemblyAI 12,9%; a diferença na "Reconhecimento de entidades em chamadas telefônicas" foi ainda maior, Grok 5,0%, enquanto as outras três foram 12,0%, 13,5% e 21,3%. Em cenários comuns como reuniões, podcasts em vídeo e chamadas telefônicas, Grok também mantém uma leve vantagem. Esses números foram testados e divulgados pela própria xAI, sem validação de terceiros. Quanto aos preços, o processamento em lote de STT custa US$ 0,10 por hora, streaming US$ 0,20 por hora; TTS custa US$ 4,20 por milhão de caracteres. O TTS suporta controle de emoção e entonação usando tags de fala inline, como \[laugh\], \[sigh\], \[whisper\], e \. (Fonte: BlockBeats)

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

12 Curtidas

Recompensa
12
5
Repostar
Compartilhar

Comentário

Adicionar um comentário

Post-RainTvl

· 29m atrás

Elon Musk está jogando um jogo grande, a velocidade de infraestrutura do xAI está mais rápida do que o esperado

Ver originalResponder0

TacoTreasury

· 4h atrás

A estrutura de voz do Grok é bastante sólida, o sistema de atendimento por satélite e em veículos usa o mesmo conjunto, a estabilidade deve ser confiável

Ver originalResponder0

GateUser-7cb48814

· 5h atrás

Transcrição em tempo real via WebSocket, pronto para uso em cenários de legendas ao vivo

Ver originalResponder0

TheProphetOfToast

· 5h atrás

O sistema de bordo da Tesla é de origem comum, o ecossistema de interação por voz do sistema pode precisar de integração

Ver originalResponder0

GateUser-e4fb1fbe

· 5h atrás

A mesma pilha de áudio suporta tantos cenários, a reutilização de engenharia foi feita de forma excelente

Ver originalResponder0

Tendências
Ver projetos
#
StockTradingChallengeUpTo17000U
16.22M Popularidade
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
814.87K Popularidade
#
IsraelStrikesIranBTCPlunges
49.53K Popularidade
#
GatePredictionMarketAddsSmartMoneyTracking
13.2M Popularidade
#
2gGoldEvery10Minutes
3.08M Popularidade

Fixado

sitemap

xAI abre API de áudio Grok STT e TTS, taxa de erro geral de palavras do STT reduzida para 6,9%

Tendências

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

2gGoldEvery10Minutes

Fixado