xAI lance les API Grok Speech en proposant des prix 60 % inférieurs à ceux des concurrents

Zach Anderson

18 avr. 2026 00:53

Elon Musk’s xAI publie Grok Speech to Text et Text to Speech APIs à 0,10 $/heure, affirmant les taux d’erreur les plus faibles dans les benchmarks de transcription d’entreprise.

Elon Musk’s xAI a lancé deux API audio autonomes le 17 avril, positionnant la technologie vocale de Grok comme un concurrent direct à ElevenLabs, Deepgram et AssemblyAI à des prix agressifs.

L’API Grok Speech to Text coûte 0,10 $ par heure pour le traitement par lots et 0,20 $ par heure pour le streaming en temps réel. Text to Speech est à 4,20 $ par million de caractères. Les deux utilisent la même infrastructure qui alimente les véhicules Tesla et le support client Starlink.

Affirmations de Benchmark à Scruter

Les taux d’erreur en mots publiés par xAI racontent une histoire intéressante. Sur la reconnaissance d’entités lors d’appels téléphoniques—pensez aux noms, numéros de compte, dates—Grok STT revendique un taux d’erreur de 5,0 % contre 12,0 % pour ElevenLabs, 13,5 % pour Deepgram, et 21,3 % pour AssemblyAI. C’est un écart significatif si cela se vérifie en production.

La société a démontré cela avec un cas de test difficile : transcrire des noms gallois comme “Anghared Llewelyn Bowen” et “Oisin MacGiolla Phadraig” ainsi que des détails hypothécaires. Grok a réussi sans erreur. Les modèles concurrents ont trébuché sur les prononciations et la mise en forme des dates de manière incohérente.

La transcription de vidéos et de podcasts montre une compétition plus serrée—Grok et ElevenLabs à égalité à 2,4 % de taux d’erreur, avec Deepgram et AssemblyAI légèrement en retrait à 3,0 % et 3,2 % respectivement.

Fonctionnalités Techniques pour les Développeurs

Au-delà de la transcription brute, xAI a intégré des fonctionnalités dont les clients d’entreprise ont réellement besoin : horodatages au niveau des mots, diarisation des locuteurs sur plusieurs canaux audio, et support pour plus de 25 langues avec changement fluide.

La fonction d’Inverse Text Normalization convertit automatiquement les nombres, dates et devises parlés en formats appropriés. “Four one four five five five one two three four” devient un numéro de téléphone. “Six ninety-nine” devient 6,99 $. Un petit détail, mais qui élimine les tracas de post-traitement.

Text to Speech inclut des balises en ligne pour le contrôle de la prosodie—murmures, rires, soupirs, emphase, ajustements du rythme. Les développeurs peuvent injecter une nuance émotionnelle sans se battre avec une balise audio complexe.

Contexte Stratégique

Ce lancement fait suite à l’acquisition par xAI de X Corp en mars 2025 et intervient alors que la société étend ses partenariats d’infrastructure. Deux jours avant l’annonce de l’API, des rapports ont émergé indiquant que xAI prévoit de fournir la puissance de calcul à Cursor, la startup de codage alimentée par l’IA.

Le superordinateur Colossus, en service depuis décembre 2024, fournit la puissance backend. xAI semble monétiser cette capacité à travers plusieurs secteurs—IA d’entreprise, outils pour développeurs, et maintenant APIs vocales.

Pour les développeurs créant des agents vocaux ou des outils de transcription, les prix sont nettement inférieurs à ceux des acteurs établis. Reste à voir si les revendications de précision de Grok résistent à un déploiement à grande échelle dans le monde réel. La documentation et les limites de taux sont disponibles via la console API de xAI pour ceux qui sont prêts à l’essayer.

Source de l’image : Shutterstock

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler