Gosta do som da Tesla? xAI abre oficialmente a API de voz Grok, TTS a 4,2 dólares por milhão de caracteres, com taxa de reconhecimento superando a ElevenLabs

robot
Geração de resumo em curso

xAI oficialmente lança esta semana a API independente de Reconhecimento de Fala (STT) e de Conversão de Texto em Fala (TTS), uma stack tecnológica que já está em funcionamento na Grok Voice, nos veículos Tesla e no sistema de atendimento ao cliente Starlink. O preço do STT é de $0,10 por hora em batch e $0,20 por hora em streaming, suportando mais de 25 idiomas.
(Resumindo: Beta do Grok 4.3 aberto para assinantes Heavy! Elon Musk: a versão flagship de treinamento inicial será concluída após 5 dias)
(Complemento de contexto: Google lança Gemini 3.1 Flash TTS: etiquetas de áudio tornam a dublagem AI mais vívida, suportando mais de 70 idiomas, Google AI Studio oferece experiência gratuita)

Índice deste artigo

Alternar

  • STT: marcações de tempo por palavra + distinção de falantes, transcrição em batch por apenas $0,10 por hora
  • TTS: 5 personalidades de voz + etiquetas de voz, 4,2 dólares por milhão de caracteres
  • A mesma stack já alimenta Tesla e Starlink

A mesma tecnologia que faz os veículos Tesla falarem, e o sistema de atendimento Starlink responder aos usuários, agora está disponível via API. A xAI anunciou oficialmente em 17 de maio o lançamento das APIs independentes de Grok de Reconhecimento de Fala (STT) e de Conversão de Texto em Fala (TTS), permitindo que desenvolvedores externos acessem diretamente essa infraestrutura de voz que já opera nos produtos da xAI.

STT: marcações de tempo por palavra + distinção de falantes, transcrição em batch por apenas $0,10 por hora

Segundo informações oficiais, a API Grok STT oferece duas formas de acesso: processamento em batch via API REST e streaming de baixa latência via WebSocket. Quanto aos preços, o processamento em batch custa $0,10 por hora e o streaming $0,20 por hora, com a empresa afirmando que sua tarifa é significativamente competitiva em relação a concorrentes principais como ElevenLabs e Deepgram.

Em termos de funcionalidades, o Grok STT suporta mais de 25 idiomas, possui marcações de tempo por palavra, distinção de falantes (diarização), além de suporte a áudio multicanal e normalização inteligente de texto reverso. É ideal para transcrição de reuniões, registros legais e médicos, logs de atendimento ao cliente, entre outros cenários empresariais que exigem alta precisão.

Nos testes de reconhecimento de entidades, o Grok STT demonstrou vantagem. Ao identificar nomes, contas e datas em chamadas telefônicas, a taxa de erro do Grok STT foi de 5,0%, enquanto ElevenLabs apresentou 12,0%, Deepgram 13,5% e AssemblyAI atingiu 21,3%.

TTS: 5 personalidades de voz + etiquetas de voz, 4,2 dólares por milhão de caracteres

A API Grok TTS oferece cinco estilos de voz distintos: Ara (feminina, calorosa e amigável), Eve (feminina, animada e positiva), Leo (masculino, autoritário e forte), Rex (masculino, confiante e claro), Sal (neutro, fluido e equilibrado).

A API detecta automaticamente o idioma de entrada, suportando nativamente mais de 20 idiomas, e controla a pronúncia via códigos de idioma BCP-47.

Os formatos de saída de áudio incluem MP3, WAV, PCM (Linear16), G.711 μ-law e G.711 A-law, sendo estes últimos comuns em sistemas telefônicos, demonstrando o alinhamento da xAI com a integração na indústria de telecomunicações.

A característica principal do TTS é a “etiqueta de voz”, onde desenvolvedores podem inserir comandos no texto para controlar pausas, risos, sussurros, ênfase na entonação, velocidade e tom, tornando a fala sintetizada mais natural e próxima da expressão humana. O preço é de $4,20 por milhão de caracteres.

A mesma stack já alimenta Tesla e Starlink

A xAI enfatiza que as APIs não representam uma tecnologia totalmente nova, mas sim a infraestrutura já implementada na Grok Voice, na interação de voz dos veículos Tesla e no sistema de suporte ao cliente Starlink.

Essa infraestrutura foi inicialmente lançada no final de 2025 sob a forma da API Grok Voice Agent, oferecendo capacidades de diálogo de voz em tempo real, com um tempo de resposta de áudio inferior a 1 segundo, cerca de cinco vezes mais rápido que os concorrentes recentes.

A introdução das APIs independentes de STT e TTS equivale a dividir essa pipeline de voz integrada em componentes acessíveis separadamente, permitindo que desenvolvedores combinem conforme suas necessidades.

XAI-8,95%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar