Grok pacote completo de voz integrado na API, o sistema de infoentretenimento da Tesla e o atendimento ao cliente Starlink já estão usando há algum tempo, os dados de autoavaliação do WER são bons, mas vamos esperar pela reavaliação de terceiros.

Ver original
MeNews
xAI abre API de áudio Grok STT e TTS, taxa de erro geral de palavras do STT reduzida para 6,9%
ME News relata que a xAI lançou duas APIs de áudio independentes: Grok STT e Grok TTS, ambas originadas do mesmo stack de áudio, suportando Grok Voice, sistemas de bordo da Tesla e atendimento ao cliente Starlink, entre outros. O STT oferece transcrição em lote via REST e fluxo em tempo real via WebSocket, com marcações de tempo ao nível de palavra, separação de falantes, múltiplos canais e normalização inversa de texto, cobrindo mais de 25 idiomas; o TTS suporta etiquetas internas de emoção e prosódia. Além disso, foi divulgado um comparativo de WER, mostrando que o Grok lidera em múltiplos cenários, sem testes de terceiros até o momento. Preços: processamento em lote do STT a 0,10 dólares por hora, streaming a 0,20 dólares por hora, e TTS a 4,20 dólares por milhão de caracteres.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado