xAI abre API de áudio Grok STT e TTS, taxa de erro geral de palavras do STT reduzida para 6,9%

ME News Notícias, 18 de abril (UTC+8), de acordo com o monitoramento do Beating, a xAI lançou duas APIs de áudio independentes: Grok Speech to Text e Grok Text to Speech. Ambas vêm do mesmo stack de áudio que suporta Grok Voice, o sistema de bordo da Tesla e o atendimento ao cliente Starlink, agora disponibilizadas como endpoints independentes, permitindo que desenvolvedores integrem diretamente em aplicações de proxy de voz, transcrição em tempo real, ferramentas de acessibilidade e podcasts. O STT oferece dois modos. A API REST é usada para transcrição em lote de arquivos de áudio grandes, com retorno em milissegundos; a API WebSocket é voltada para fluxo de voz em tempo real. Recursos adicionais incluem marcações de tempo por palavra, diarização de falantes, reconhecimento separado por múltiplos canais, além de Normalização de Texto Inversa, que formata automaticamente números, datas e moedas presentes na fala em textos estruturados padronizados. O suporte linguístico abrange mais de 25 idiomas, com troca fluida durante diálogos. A xAI também divulgou uma comparação de taxas de erro de palavra (WER, quanto menor, melhor): em cenários gerais, Grok 6,9%, ElevenLabs 9,0%, Deepgram 11,0%, AssemblyAI 12,9%; a diferença na "Reconhecimento de entidades em chamadas telefônicas" é ainda maior, Grok 5,0%, enquanto as outras três são 12,0%, 13,5% e 21,3%. Em cenários comuns como reuniões, podcasts em vídeo e chamadas telefônicas, Grok também mantém uma leve vantagem. Esses números foram testados e divulgados pela própria xAI, sem validação de terceiros. Quanto aos preços, o processamento em lote de STT custa US$ 0,10 por hora, streaming US$ 0,20 por hora; TTS custa US$ 4,20 por milhão de caracteres. O TTS suporta controle de emoção e entonação usando tags de fala inline, como \[laugh\], \[sigh\], \[whisper\], \ (Fonte: BlockBeats)
XAI2,07%
GROK-8,45%
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 9
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
MosaicButterfly
· 1h atrás
Ponto final independente é muito mais flexível do que estar preso ao chat do Grok
Ver originalResponder0
FloatingMirrorSphere
· 2h atrás
Espere por um preço, não seja mais um nobre da API
Ver originalResponder0
BudgetValidator
· 6h atrás
A infraestrutura de voz começa a padronizar, beneficiando desenvolvedores de pequeno e médio porte
Ver originalResponder0
MirrorBallGazingAtTheSky
· 8h atrás
A mesma pilha suporta três cenários, Elon Musk realmente manda bem na reutilização.
Ver originalResponder0
AirdropSidequest
· 9h atrás
WebSocket é adequado para streaming, REST é adequado para arquivamento, design inteligente
Ver originalResponder0
CandlewickKid
· 13h atrás
xAI finalmente separou a pilha de voz, os desenvolvedores estão em êxtase
Ver originalResponder0
RetroRadioSignal
· 13h atrás
O STT do Grok implementou um modo duplo com REST + WebSocket, cuidando tanto de processamento em lote quanto em tempo real, bastante detalhado.
Ver originalResponder0
PatinaTradingBell
· 14h atrás
A pilha de áudio usada pelo Tesla e pelo Starlink, deve ter sua confiabilidade comprovada.
Ver originalResponder0
OracleBabysitter
· 14h atrás
Ferramentas de acessibilidade +1, essa é a verdadeira essência da tecnologia com empatia
Ver originalResponder0
Ver projetos