xAI esta combinação de áudio está a atuar com força, o preço de streaming de STT a 0,2 dólares por hora compara diretamente com o Whisper, o TTS ainda vem com etiquetas emocionais, Elon Musk quer transformar o setor de voz numa guerra de preços.

XAI4,39%
STT3,84%
Ver original
MeNews
xAI abre API de áudio Grok STT e TTS, a taxa de erro geral de palavras do STT reduzida para 6,9%
ME News reporta que a xAI lançou duas APIs de áudio independentes: Grok STT e Grok TTS, ambas originadas do mesmo stack de áudio, suportando Grok Voice, sistemas de bordo da Tesla e atendimento ao cliente Starlink, entre outros.
O STT oferece transcrição em lote via REST e fluxo em tempo real via WebSocket, com marcações de tempo ao nível de palavra, separação de falantes, múltiplos canais e normalização reversa de texto, cobrindo mais de 25 idiomas;
O TTS suporta etiquetas internas de emoção e prosódia. E divulgou uma comparação de WER, onde o Grok lidera em múltiplos cenários, sem testes de terceiros até o momento.
Preços: processamento em lote do STT a 0,10 dólares por hora, streaming a 0,20 dólares por hora, TTS a 4,20 dólares por milhão de caracteres.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado