Grok STT das marcações de tempo a nível de palavra e a separação de falantes são essenciais para os editores de podcasts, mas os dados de WER são autossuficientes, aguardando uma nova verificação por terceiros.

GROK-7,79%
STT-1,1%
Ver original
MeNews
xAI abre API de áudio Grok STT e TTS, com a taxa de erro geral de palavras do STT reduzida para 6,9%
ME News relata que a xAI lançou duas APIs de áudio independentes: Grok STT e Grok TTS, ambas originadas do mesmo stack de áudio, suportando Grok Voice, sistemas de bordo da Tesla e atendimento ao cliente Starlink, entre outros.
O STT oferece transcrição em lote via REST e fluxo em tempo real via WebSocket, com marcações de tempo a nível de palavra, separação de falantes, múltiplos canais e normalização inversa de texto, cobrindo mais de 25 idiomas;
O TTS suporta etiquetas internas de emoção e prosódia. E divulgou uma comparação de WER, onde o Grok lidera em múltiplos cenários, sem testes de terceiros até o momento.
Preços: processamento em lote do STT a 0,10 dólares por hora, streaming a 0,20 dólares por hora, TTS a 4,20 dólares por milhão de caracteres.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 1
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
GateUser-dd0c6b87
· 11h atrás
De forma alguma é a mesma coisa, não engane as pessoas
Ver originalResponder0