A taxa de erro de palavras do STT é menor do que a dos concorrentes, e o TTS ainda permite ajustar o tom de voz usando etiquetas, usando a mesma pilha de tecnologia para alimentar o Grok Voice, a Tesla e a Starlink — Musk quer dominar toda a cadeia de interação por voz.

Ver original
MeNews
xAI lança API de conversão de voz para texto Grok e de texto para voz
ME News relata que a xAI lançou oficialmente duas APIs de áudio independentes: Grok STT e Grok TTS.
Grok STT possui alta precisão, baixa latência, suporta processamento em lote via REST, transcrição em tempo real via WebSocket, com marcações de tempo ao nível de palavra, separação de falantes, múltiplos canais e normalização inteligente de texto invertido, cobrindo mais de 25 idiomas;
0,10 dólares por hora em processamento em lote, 0,20 dólares por hora em streaming, com taxa de erro de palavra inferior à de vários concorrentes.
Grok TTS oferece voz rápida, natural e com controle granular por meio de etiquetas, com preço de 4,20 dólares por milhão de caracteres.
Ambas baseadas na mesma pilha tecnológica, utilizadas pelo Grok Voice, Tesla e Starlink.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado