xAI esta API de áudio tem uma estrutura de preços interessante, o STT em lote custa apenas 0,1 dólares por hora, enquanto o TTS é na verdade mais caro, chegando a 4,2 dólares por milhão de caracteres, será que esse valor adicional para a etiqueta de sentimento compensa?

Ver original
MeNews
xAI abre API de áudio Grok STT e TTS, taxa de erro geral de palavras do STT reduzida para 6,9%
ME News reporta que a xAI lançou duas APIs de áudio independentes: Grok STT e Grok TTS, ambas originadas do mesmo stack de áudio, suportando Grok Voice, sistemas de bordo da Tesla e atendimento ao cliente Starlink, entre outros.
O STT oferece transcrição em lote via REST e fluxo em tempo real via WebSocket, com marcações de tempo ao nível de palavra, separação de falantes, múltiplos canais e normalização reversa de texto, cobrindo mais de 25 idiomas;
O TTS suporta etiquetas internas de emoção e prosódia.
E divulgou uma comparação de WER, mostrando que o Grok lidera em múltiplos cenários, sem testes de terceiros até o momento.
Preços: processamento em lote do STT a 0,10 dólares por hora, streaming a 0,20 dólares por hora, TTS a 4,20 dólares por milhão de caracteres.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado