ME News Notícias, 18 de abril (UTC+8), de acordo com o monitoramento do Beating, a xAI lançou duas APIs de áudio independentes: Grok Speech to Text e Grok Text to Speech. Ambas vêm da mesma pilha de áudio que suporta o Grok Voice, o sistema de bordo da Tesla e o atendimento ao cliente Starlink, agora disponibilizadas como endpoints independentes, permitindo que desenvolvedores integrem diretamente em aplicações de agentes de voz, transcrição em tempo real, ferramentas de acessibilidade e podcasts. O STT oferece dois modos. A API REST é usada para transcrição em lote de grandes arquivos de áudio, com retorno em milissegundos; a API WebSocket é voltada para fluxo de voz em tempo real. Recursos adicionais incluem marcações de tempo por palavra, separação de falantes (diarization), reconhecimento em múltiplos canais e Normalização de Texto Inversa, ou seja, transformar números, datas e moedas falados em textos estruturados padronizados. O suporte linguístico cobre mais de 25 idiomas, com troca fluida durante diálogos. A xAI também divulgou uma comparação de taxas de erro de palavra (WER, quanto menor, melhor): em cenários gerais, Grok 6,9%, ElevenLabs 9,0%, Deepgram 11,0%, AssemblyAI 12,9%; a diferença na "Reconhecimento de entidades em chamadas telefônicas" é ainda maior, Grok 5,0%, enquanto as outras três são 12,0%, 13,5% e 21,3%. Em cenários comuns como reuniões, podcasts em vídeo e chamadas telefônicas, o Grok também mantém uma leve vantagem. Esses números foram divulgados pela própria xAI após testes internos, sem validação de terceiros. Quanto aos preços, o processamento em lote de STT custa US$ 0,10 por hora, streaming US$ 0,20 por hora; TTS custa US$ 4,20 por milhão de caracteres. O TTS suporta controle de emoções e entonações usando tags de fala inline, como \[laugh\], \[sigh\], \[whisper\], \ (Fonte: BlockBeats)

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

11 gostos

Recompensa
11
12
1
Partilhar

Comentar

Adicionar um comentário

WhitepaperByTheRoadside

· 42m atrás

Carimbo de tempo por palavra + separação de oradores, o cenário de atas de reuniões está a ficar insano

Ver originalResponder0

Lime-ColoredStop-LossLine

· 12h atrás

Processamento em lote 0,1 dólares/hora é realmente atraente, mas a precificação por fluxo que dobra claramente te força a optar por volume

Ver originalResponder0

GateUser-83a2dd8a

· 12h atrás

25+ cobertura de idiomas, alguém já testou como fica o efeito em chinês?

Ver originalResponder0

TheProphetOfToast

· 13h atrás

Etiquetas internas de ritmo emocional, finalmente sem precisar ouvir o robô ler o roteiro

Ver originalResponder0

GateUser-b665e41c

· 14h atrás

Integração do sistema de bordo da Tesla, qual é a latência de interação por voz ao dirigir, em milissegundos?

Ver originalResponder0

PunkRiskMgr

· 14h atrás

O serviço de atendimento ao cliente da Starlink já está em uso, regiões rurais com sotaque foram reconhecidas como uma mina de dados de treino

Ver originalResponder0

ToBeHonest,You'llLose

· 15h atrás

Da revolução dos LLM até a voz, a guerra multimodal entra oficialmente na segunda metade

Ver originalResponder0

HashbrownHero

· 15h atrás

A transcrição em massa deste preço, os grupos de legendas e os anfitriões de podcasts provavelmente terão que migrar coletivamente

Ver originalResponder0

GateUser-bee672a5

· 15h atrás

Aguardar uma comunidade de código aberto reproduzir o benchmark WER do xAI, a prática habitual é questionar primeiro

Ver originalResponder0

TwoFactorZen

· 15h atrás

REST + modo duplo WebSocket, máxima facilidade para desenvolvedores

Ver originalResponder0

Ver mais

Tópicos em destaque
Ver mais
#
StockTradingChallengeUpTo17000U
16.02M Popularidade
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
833.58K Popularidade
#
IsraelStrikesIranBTCPlunges
49.81K Popularidade
#
GatePredictionMarketAddsSmartMoneyTracking
13.25M Popularidade
#
MicronMarketCapBreaks1Trillion
45.88K Popularidade

Fixado

xAI abre API de áudio Grok STT e TTS, a taxa de erro geral de palavras do STT reduzida para 6,9%

Tópicos em destaque

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

Fixado