xAI abre API de áudio Grok STT e TTS, taxa de erro geral de palavras do STT reduzida para 6,9%

robot
Geração de resumo em curso
ME News Notícias, 18 de abril (UTC+8), de acordo com o monitoramento do Beating, a xAI lançou duas APIs de áudio independentes: Grok Speech to Text e Grok Text to Speech. Ambas vêm da mesma pilha de áudio que suporta o Grok Voice, o sistema de bordo da Tesla e o atendimento ao cliente Starlink, agora disponibilizadas como endpoints independentes, permitindo que desenvolvedores integrem diretamente em aplicações de agentes de voz, transcrição em tempo real, ferramentas de acessibilidade e podcasts. O STT oferece dois modos. A API REST é usada para transcrição em lote de grandes arquivos de áudio, com retorno em milissegundos; a API WebSocket é voltada para fluxo de voz em tempo real. Recursos adicionais incluem marcações de tempo por palavra, separação de falantes (diarization), reconhecimento em múltiplos canais e Normalização de Texto Inversa, ou seja, transformar números, datas e moedas falados em texto estruturado padronizado. O suporte linguístico cobre mais de 25 idiomas, com troca fluida durante diálogos. A xAI também divulgou uma comparação de taxas de erro de palavra (WER, quanto menor, melhor): em cenários gerais, Grok 6,9%, ElevenLabs 9,0%, Deepgram 11,0%, AssemblyAI 12,9%; a diferença na "Reconhecimento de entidades em chamadas telefônicas" é ainda maior, Grok 5,0%, enquanto as outras três são 12,0%, 13,5% e 21,3%. Em cenários comuns como reuniões, podcasts em vídeo e chamadas telefônicas, o Grok também mantém uma leve vantagem. Esses números foram divulgados pela própria xAI após testes internos, sem validação de terceiros. Quanto aos preços, o processamento em lote de STT custa US$ 0,10 por hora, streaming US$ 0,20 por hora; TTS custa US$ 4,20 por milhão de caracteres. O TTS suporta controle de emoções e entonações usando tags de fala inline, como \[laugh\], \[sigh\], \[whisper\], (Fonte: BlockBeats).
XAI0,13%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 7
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
GateUser-7919e6b9
· 4h atrás
STT em lote custa apenas 0,1 dólar por hora, mais barato que a API Whisper.
Ver originalResponder0
GateUser-28f37882
· 5h atrás
A mesma pilha alimentou o Grok Voice, o sistema de bordo, o Starlink, esta integração de recursos do xAI tem algo de especial
Ver originalResponder0
Don'tMessWithSlippage.
· 5h atrás
Grok esta pilha de áudio finalmente foi aberta ao público, os proprietários de Tesla estão em êxtase
Ver originalResponder0
ReflectiveChainShadow
· 5h atrás
WebSocket fluxo em tempo real de 0,2 dólares por hora, é possível rodar em cenário de legendas ao vivo?
Ver originalResponder0
MossyLedger
· 5h atrás
WER sem nova verificação por terceiros, deixe as balas voarem por um tempo.
Ver originalResponder0
MistBlueLily
· 5h atrás
A normalização de texto invertido é muito útil para assistentes de voz, finalmente não preciso escrever regras sozinho
Ver originalResponder0
NodeUnderTheAurora
· 5h atrás
4,2 dólares por milhão de caracteres de TTS, é mais barato ou mais caro do que o ElevenLabs? Alguém já fez as contas?
Ver originalResponder0