xAI lança API de conversão de voz para texto Grok e de texto para voz

robot
Geração de resumo em curso
ME News Notícias, 18 de abril (UTC+8), a xAI anunciou recentemente o lançamento oficial de duas APIs de áudio independentes: Grok de conversão de voz em texto (STT) e Grok de texto em voz (TTS).
O Grok STT oferece serviços de transcrição com alta precisão e baixa latência, suportando processamento em lote via API REST e transcrição em fluxo em tempo real via API WebSocket, além de possuir marcações de tempo ao nível de palavra, separação de falantes, suporte a múltiplos canais e funções inteligentes de normalização reversa de texto.
O artigo menciona que, em testes de referência em áreas como chamadas telefónicas, reuniões, vídeos/podcasts, seu índice de erro de palavra supera modelos comerciais principais como ElevenLabs, Deepgram e AssemblyAI.
Este serviço suporta mais de 25 idiomas, com preços de 0,10 dólares por hora para processamento em lote e 0,20 dólares por hora para processamento em fluxo.
O Grok TTS pode gerar vozes rápidas, naturais e expressivas, suportando controlo granular através de simples etiquetas de voz, com um preço de 4,20 dólares por milhão de caracteres.
As duas APIs são baseadas na mesma pilha tecnológica que alimenta o Grok Voice, veículos Tesla e suporte ao cliente Starlink. (Fonte: InFoQ)
XAI-1,53%
GROK-1,77%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 7
  • 3
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
RiskParachute
· 5h atrás
Espere, o TTS consegue controlar com detalhes através de etiquetas? Então, também consegue ajustar emoções e tons?
Ver originalResponder0
BitByBitBenny
· 5h atrás
Marcadores de tempo ao nível de palavra + separação de oradores, uma ferramenta incrível para atas de reuniões, quero experimentar
Ver originalResponder0
FrictionlessFred
· 5h atrás
Grok Voice, Tesla, Starlink usam uma mesma pilha tecnológica, Elon Musk entendeu bem este ciclo ecológico.
Ver originalResponder0
GoldfishUnderTheIce
· 5h atrás
O que é a tecnologia avançada de normalização de texto invertido, que transforma a linguagem falada de volta em texto padrão?
Ver originalResponder0
Don'tMessWithSlippage.
· 5h atrás
Cobertura em 25 idiomas, como fica a qualidade em chinês, alguém já testou?
Ver originalResponder0
YieldBonsai
· 5h atrás
4,20 dólares por milhão de caracteres, este número é intencional, não é?
Ver originalResponder0
IOnlyTrustOn-ChainData.
· 5h atrás
xAI esta onda de preços da API de áudio é bastante agressiva, 0,1 dólares por hora em lote, parece que vai acabar com uma boa parte dos fornecedores de ASR.
Ver originalResponder0
  • Fixado