ME News Notícias, 18 de abril (UTC+8), de acordo com a monitorização do Beating, a xAI lançou duas APIs de áudio independentes: Grok Speech to Text e Grok Text to Speech. Ambas vêm da mesma pilha de áudio que suporta o Grok Voice, o sistema de bordo da Tesla e o atendimento ao cliente Starlink, agora disponibilizadas como endpoints independentes, permitindo que os desenvolvedores integrem diretamente em aplicações de agentes de voz, transcrição em tempo real, ferramentas de acessibilidade e podcasts. O STT oferece dois modos. A API REST é usada para transcrição em lote de grandes ficheiros de áudio, com retorno em milissegundos; a API WebSocket é voltada para fluxo de voz em tempo real. As capacidades adicionais incluem marcações de tempo por palavra, separação de falantes (diarization), reconhecimento em múltiplos canais e Normalização de Texto Inversa, ou seja, transformar números, datas e moedas falados em texto estruturado padronizado. O suporte linguístico cobre mais de 25 idiomas, com troca fluida durante a conversa. A xAI também divulgou uma comparação de taxas de erro de palavra (WER, quanto menor, melhor): cenário geral Grok 6,9%, ElevenLabs 9,0%, Deepgram 11,0%, AssemblyAI 12,9%; a diferença na "Reconhecimento de entidades em chamadas telefónicas" foi ainda maior, Grok 5,0%, enquanto as outras três foram 12,0%, 13,5% e 21,3%. Em cenários comuns como reuniões, podcasts em vídeo e chamadas telefónicas, o Grok também liderou ligeiramente. Esses números foram divulgados pela própria xAI após testes internos, sem validação de terceiros. Quanto aos preços, o processamento em lote de STT custa 0,10 dólares por hora, streaming 0,20 dólares por hora; TTS custa 4,20 dólares por milhão de caracteres. O TTS suporta controle de emoções e entonação usando etiquetas de fala inline, como \[laugh\], \[sigh\], \[whisper\], \ (Fonte: BlockBeats)

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

10 gostos

Recompensa
10
10
3
Partilhar

Comentar

Adicionar um comentário

InstantNoodle-LevelResearcher

· 4h atrás

Transcrição em lote usando REST, em tempo real usando WebSocket, o design da arquitetura é bastante pragmático.

Ver originalResponder0

GateUser-f85bc167

· 4h atrás

Aguarde uma pontuação real, basta ver o benchmark do xAI

Ver originalResponder0

MarginMom

· 4h atrás

Grok TTS suporta etiquetas de emoção, é interessante, será que no futuro a dublagem por IA poderá ter tom de choro?

Ver originalResponder0

GateUser-f92ba9fa

· 4h atrás

25+ línguas cobertas, como fica o desempenho em chinês, alguém já testou?

Ver originalResponder0

Lightning-FastComposure

· 4h atrás

O que é a tecnologia avançada de normalização de texto invertido, alguém que entende pode explicar?

Ver originalResponder0

HaiyanColdWallet

· 4h atrás

Carimbo de hora ao nível de palavra + separação de oradores, registo de reuniões deixa os participantes extasiados

Ver originalResponder0

QuantsAndCats

· 5h atrás

4,2 dólares por milhão de caracteres de TTS, é mais barato ou mais caro do que o ElevenLabs?

Ver originalResponder0

AmberTeaSwirl

· 5h atrás

Transcrição contínua 0,2 dólares/hora, o cenário de legendas em tempo real deve ser viável

Ver originalResponder0

MultisigOnRocks

· 5h atrás

A mesma pilha de áudio alimenta o Grok Voice, Tesla e Starlink, Elon Musk criou um ecossistema fechado.

Ver originalResponder0

BalanceScreenshotAfterTheRain

· 5h atrás

xAI esta onda de API de áudio chegou um pouco de surpresa, a precificação de STT de 0,1 dólares por hora é considerada justa?

Ver originalResponder0

Ver mais

Tópicos em destaque
Ver mais
#
StockTradingChallengeUpTo17000U
16.21M Popularidade
#
USStrikesIran
9.31M Popularidade
#
IsraelStrikesIranBTCPlunges
49.45K Popularidade
#
GatePredictionMarketAddsSmartMoneyTracking
13.06M Popularidade
#
InstitutionalCapitalRotatesFromBTCToHYPEAndXRP
14.33M Popularidade

Fixado

xAI abre API de áudio Grok STT e TTS, com a taxa de erro geral de palavras do STT reduzida para 6,9%

Tópicos em destaque

StockTradingChallengeUpTo17000U

USStrikesIran

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

InstitutionalCapitalRotatesFromBTCToHYPEAndXRP

Fixado