Futures
Accédez à des centaines de contrats perpétuels
TradFi
Or
Une plateforme pour les actifs mondiaux
Options
Hot
Tradez des options classiques de style européen
Compte unifié
Maximiser l'efficacité de votre capital
Trading démo
Introduction au trading futures
Préparez-vous à trader des contrats futurs
Événements futures
Participez aux événements et gagnez
Demo Trading
Utiliser des fonds virtuels pour faire l'expérience du trading sans risque
Lancer
CandyDrop
Collecte des candies pour obtenir des airdrops
Launchpool
Staking rapide, Gagnez de potentiels nouveaux jetons
HODLer Airdrop
Conservez des GT et recevez d'énormes airdrops gratuitement
Pre-IPOs
Accédez à l'intégralité des introductions en bourse mondiales
Points Alpha
Tradez on-chain et gagnez des airdrops
Points Futures
Gagnez des points Futures et réclamez vos récompenses d’airdrop.
Investissement
Simple Earn
Gagner des intérêts avec des jetons inutilisés
Investissement automatique
Auto-invest régulier
Double investissement
Profitez de la volatilité du marché
Staking souple
Gagnez des récompenses grâce au staking flexible
Prêt Crypto
0 Fees
Mettre en gage un crypto pour en emprunter une autre
Centre de prêts
Centre de prêts intégré
xAI lance les API Grok Speech en proposant des prix 60 % inférieurs à ceux des concurrents
Zach Anderson
18 avr. 2026 00:53
Elon Musk’s xAI publie Grok Speech to Text et Text to Speech APIs à 0,10 $/heure, affirmant les taux d’erreur les plus faibles dans les benchmarks de transcription d’entreprise.
Elon Musk’s xAI a lancé deux API audio autonomes le 17 avril, positionnant la technologie vocale de Grok comme un concurrent direct à ElevenLabs, Deepgram et AssemblyAI à des prix agressifs.
L’API Grok Speech to Text coûte 0,10 $ par heure pour le traitement par lots et 0,20 $ par heure pour le streaming en temps réel. Text to Speech est à 4,20 $ par million de caractères. Les deux utilisent la même infrastructure qui alimente les véhicules Tesla et le support client Starlink.
Affirmations de Benchmark à Scruter
Les taux d’erreur en mots publiés par xAI racontent une histoire intéressante. Sur la reconnaissance d’entités lors d’appels téléphoniques—pensez aux noms, numéros de compte, dates—Grok STT revendique un taux d’erreur de 5,0 % contre 12,0 % pour ElevenLabs, 13,5 % pour Deepgram, et 21,3 % pour AssemblyAI. C’est un écart significatif si cela se vérifie en production.
La société a démontré cela avec un cas de test difficile : transcrire des noms gallois comme “Anghared Llewelyn Bowen” et “Oisin MacGiolla Phadraig” ainsi que des détails hypothécaires. Grok a réussi sans erreur. Les modèles concurrents ont trébuché sur les prononciations et la mise en forme des dates de manière incohérente.
La transcription de vidéos et de podcasts montre une compétition plus serrée—Grok et ElevenLabs à égalité à 2,4 % de taux d’erreur, avec Deepgram et AssemblyAI légèrement en retrait à 3,0 % et 3,2 % respectivement.
Fonctionnalités Techniques pour les Développeurs
Au-delà de la transcription brute, xAI a intégré des fonctionnalités dont les clients d’entreprise ont réellement besoin : horodatages au niveau des mots, diarisation des locuteurs sur plusieurs canaux audio, et support pour plus de 25 langues avec changement fluide.
La fonction d’Inverse Text Normalization convertit automatiquement les nombres, dates et devises parlés en formats appropriés. “Four one four five five five one two three four” devient un numéro de téléphone. “Six ninety-nine” devient 6,99 $. Un petit détail, mais qui élimine les tracas de post-traitement.
Text to Speech inclut des balises en ligne pour le contrôle de la prosodie—murmures, rires, soupirs, emphase, ajustements du rythme. Les développeurs peuvent injecter une nuance émotionnelle sans se battre avec une balise audio complexe.
Contexte Stratégique
Ce lancement fait suite à l’acquisition par xAI de X Corp en mars 2025 et intervient alors que la société étend ses partenariats d’infrastructure. Deux jours avant l’annonce de l’API, des rapports ont émergé indiquant que xAI prévoit de fournir la puissance de calcul à Cursor, la startup de codage alimentée par l’IA.
Le superordinateur Colossus, en service depuis décembre 2024, fournit la puissance backend. xAI semble monétiser cette capacité à travers plusieurs secteurs—IA d’entreprise, outils pour développeurs, et maintenant APIs vocales.
Pour les développeurs créant des agents vocaux ou des outils de transcription, les prix sont nettement inférieurs à ceux des acteurs établis. Reste à voir si les revendications de précision de Grok résistent à un déploiement à grande échelle dans le monde réel. La documentation et les limites de taux sont disponibles via la console API de xAI pour ceux qui sont prêts à l’essayer.
Source de l’image : Shutterstock