xAI abre API de áudio Grok STT e TTS, taxa de erro geral de palavras do STT reduzida para 6,9%

robot
Geração do resumo em andamento
ME News Notícias, 18 de abril (UTC+8), de acordo com o monitoramento do Beating, a xAI lançou duas APIs de áudio independentes: Grok Speech to Text e Grok Text to Speech. Ambas vêm da mesma pilha de áudio que suporta Grok Voice, o sistema de bordo da Tesla e o atendimento ao cliente Starlink, agora disponibilizadas como endpoints independentes, permitindo que desenvolvedores integrem diretamente em aplicativos de proxy de voz, transcrição em tempo real, ferramentas de acessibilidade e podcasts. O STT oferece dois modos. A API REST é usada para transcrição em lote de arquivos de áudio grandes, com retorno em milissegundos; a API WebSocket é voltada para fluxo de voz em tempo real. Recursos adicionais incluem marcação de tempo por palavra, diarização de falantes, reconhecimento separado por canais múltiplos, além de Normalização de Texto Inversa, que formata automaticamente números, datas e moedas presentes na fala em textos estruturados padronizados. O suporte linguístico abrange mais de 25 idiomas, com troca contínua durante a diálogo. A xAI também divulgou uma comparação de taxas de erro de palavra (WER, quanto menor, melhor): cenário geral Grok 6,9%, ElevenLabs 9,0%, Deepgram 11,0%, AssemblyAI 12,9%; a diferença na "Reconhecimento de entidades em chamadas telefônicas" foi ainda maior, Grok 5,0%, enquanto as outras três empresas apresentaram 12,0%, 13,5% e 21,3%, respectivamente. Em cenários comuns como reuniões, podcasts em vídeo e chamadas telefônicas, Grok também mantém uma leve vantagem. Esses números foram testados e divulgados pela própria xAI, sem validação de terceiros. Quanto aos preços, o processamento em lote de STT custa US$0,10 por hora, streaming US$0,20 por hora; TTS custa US$4,20 por milhão de caracteres. O TTS suporta controle de emoção e entonação usando tags de fala inline, como \[laugh\], \[sigh\], \[whisper\], \ (Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 10
  • 3
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
InstantNoodle-LevelResearcher
· 4h atrás
Transcrição em lote usando REST, em tempo real usando WebSocket, o design da arquitetura é bastante prático.
Ver originalResponder0
GateUser-f85bc167
· 4h atrás
Espere por uma pontuação real, apenas olhe o benchmark do xAI.
Ver originalResponder0
MarginMom
· 4h atrás
Grok TTS suporta etiquetas emocionais, é interessante, será que no futuro a dublagem por IA poderá ter tom de choro?
Ver originalResponder0
GateUser-f92ba9fa
· 4h atrás
25+ idiomas cobertos, alguém já testou como fica o efeito em chinês?
Ver originalResponder0
Lightning-FastComposure
· 4h atrás
O que é a tecnologia avançada de normalização de texto invertido, alguém que entende pode explicar?
Ver originalResponder0
HaiyanColdWallet
· 5h atrás
Carimbo de tempo por palavra + separação de falantes, registro de reunião deixa os entusiastas extasiados
Ver originalResponder0
QuantsAndCats
· 5h atrás
4.2 dólares por milhão de caracteres de TTS, é mais barato ou mais caro do que ElevenLabs?
Ver originalResponder0
AmberTeaSwirl
· 5h atrás
Transcrição contínua (STT) 0,2 dólar/hora, o cenário de legendas em tempo real deve ser viável
Ver originalResponder0
MultisigOnRocks
· 5h atrás
A mesma pilha de áudio alimenta Grok Voice, Tesla, Starlink, Elon Musk criou um ecossistema fechado.
Ver originalResponder0
BalanceScreenshotAfterTheRain
· 5h atrás
xAI, essa rodada de API de áudio veio um pouco de surpresa, o preço de STT de 0,1 dólar por hora é considerado justo?
Ver originalResponder0
Ver projetos