xAI abre API de áudio Grok STT e TTS, taxa de erro geral de palavras do STT reduzida para 6,9%

ME News Notícias, 18 de abril (UTC+8), de acordo com a monitorização do Beating, a xAI lançou duas APIs de áudio independentes: Grok Speech to Text e Grok Text to Speech. Ambas vêm da mesma pilha de áudio que suporta o Grok Voice, o sistema de bordo da Tesla e o atendimento ao cliente Starlink, agora disponibilizadas como endpoints independentes, permitindo que os desenvolvedores integrem diretamente em aplicações de agentes de voz, transcrição em tempo real, ferramentas de acessibilidade e podcasts. O STT oferece dois modos. A API REST é usada para transcrição em lote de grandes ficheiros de áudio, com retorno em milissegundos; a API WebSocket é voltada para fluxo de voz em tempo real. As capacidades adicionais incluem carimbos de tempo por palavra, separação de falantes (diarization), reconhecimento em múltiplos canais e Normalização de Texto Inversa, ou seja, transformar números, datas e moedas falados em texto estruturado padrão. O suporte linguístico cobre mais de 25 idiomas, com troca fluida durante a conversa. A xAI também divulgou uma comparação de taxas de erro de palavra (WER, quanto menor, melhor): cenário geral Grok 6,9%, ElevenLabs 9,0%, Deepgram 11,0%, AssemblyAI 12,9%; a diferença na "Reconhecimento de entidades em chamadas telefónicas" foi ainda maior, Grok 5,0%, enquanto as outras três foram 12,0%, 13,5% e 21,3%. Em cenários comuns como reuniões, podcasts em vídeo e chamadas telefónicas, o Grok também liderou ligeiramente. Esses números foram testados e divulgados pela própria xAI, sem validação por terceiros. Quanto aos preços, o processamento em lote de STT custa 0,10 dólares por hora, streaming 0,20 dólares por hora; TTS custa 4,20 dólares por milhão de caracteres. O TTS suporta controle de emoções e entonação usando etiquetas de fala inline, como \[laugh\], \[sigh\], \[whisper\], \ (Fonte: BlockBeats)
XAI1,48%
GROK-5,89%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 7
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
BudgetValidator
· 2h atrás
A infraestrutura de voz começa a padronizar-se, beneficiando os pequenos e médios desenvolvedores
Ver originalResponder0
MirrorBallGazingAtTheSky
· 4h atrás
A mesma pilha suporta três cenários, Elon Musk joga com a reutilização de 6 vezes
Ver originalResponder0
AirdropSidequest
· 5h atrás
WebSocket é adequado para fluxo contínuo, REST é adequado para arquivamento, design razoável
Ver originalResponder0
CandlewickKid
· 9h atrás
xAI finalmente separou a pilha de voz, os desenvolvedores estão em êxtase
Ver originalResponder0
RetroRadioSignal
· 10h atrás
O STT do Grok implementou um modo duplo com REST + WebSocket, cuidando tanto de processamento em lote quanto em tempo real, bastante detalhado.
Ver originalResponder0
PatinaTradingBell
· 10h atrás
A pilha de áudio usada pela Tesla e Starlink, deve ter passado por testes de fiabilidade
Ver originalResponder0
OracleBabysitter
· 10h atrás
Ferramentas de acessibilidade +1, esta é a verdadeira essência da tecnologia com humanidade
Ver originalResponder0