A taxa de erro de palavras do STT é menor que a dos concorrentes, o TTS ainda permite ajustar o tom usando etiquetas, a mesma pilha de tecnologia alimenta a Grok Voice, a Tesla e a Starlink — Musk quer dominar toda a cadeia de interação por voz.

Ver original
MeNews
xAI lança API de Voz para Texto Grok e de Texto para Voz
ME News reporta que a xAI lançou oficialmente duas APIs de áudio independentes: Grok STT e Grok TTS.
Grok STT possui alta precisão, baixa latência, suporta processamento em lote via REST, transcrição em tempo real via WebSocket, com marcações de tempo a nível de palavra, separação de falantes, múltiplos canais e normalização inteligente de texto invertido, cobrindo mais de 25 idiomas;
0,10 dólares por hora em processamento em lote, 0,20 dólares por hora em streaming, taxa de erro de palavra melhor do que vários concorrentes.
Grok TTS oferece voz rápida, natural e com controle granular por meio de etiquetas, com preço de 4,20 dólares por milhão de caracteres.
Ambos baseados na mesma pilha tecnológica, utilizados pelo Grok Voice, Tesla e Starlink.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado