Les nouvelles de ME News rapportent que xAI a lancé deux API audio indépendantes : Grok STT et Grok TTS, issues du même stack audio, supportant Grok Voice, le système embarqué Tesla et le service client Starlink, etc. STT offre une transcription en lot via REST et un flux en temps réel via WebSocket, avec des horodatages au niveau des mots, la séparation des locuteurs, plusieurs canaux et une normalisation inversée du texte, couvrant plus de 25 langues ; TTS supporte des balises intégrées pour l’émotion et la prosodie. Ils ont également publié une comparaison du taux d’erreur WER, où Grok domine dans plusieurs scénarios, mais aucune revalidation par un tiers n’a encore été effectuée. Tarification : traitement par lot STT 0,10 USD par heure, streaming 0,20 USD par heure, TTS 4,20 USD par million de caractères.

MeNews

2026-05-27 05:49:03

Création du résumé en cours

ME News Actualités, le 18 avril (UTC+8), selon la surveillance de Beating de Dongcha, xAI a lancé deux API audio indépendantes : Grok Speech to Text et Grok Text to Speech. Les deux proviennent de la même pile audio supportant Grok Voice, le système embarqué de Tesla et le service client Starlink, et sont désormais accessibles sous forme de points de terminaison indépendants, permettant aux développeurs d’intégrer directement des applications de proxy vocal, de transcription en temps réel, d’outils d’accessibilité et de podcasts. STT propose deux modes. L’API REST pour la transcription en masse de grands fichiers audio, avec un retour en millisecondes ; l’API WebSocket pour le flux vocal en temps réel. Les capacités associées incluent des horodatages au niveau des mots, la séparation des locuteurs (diarization), la reconnaissance multi-canaux, ainsi que la Normalisation Inverse du Texte, c’est-à-dire la mise en forme automatique des chiffres, dates, devises dans le discours en texte structuré normalisé. La couverture linguistique dépasse 25 langues, avec un changement fluide lors des dialogues. xAI a également publié un comparatif du taux d’erreur de reconnaissance de mots (WER, plus la valeur est basse, mieux c’est) : dans le scénario global, Grok 6,9 %, ElevenLabs 9,0 %, Deepgram 11,0 %, AssemblyAI 12,9 % ; la différence pour la « reconnaissance d’entités lors d’appels téléphoniques » est encore plus grande, Grok 5,0 %, contre respectivement 12,0 %, 13,5 %, 21,3 % pour les trois autres. Dans les scénarios courants de réunions, podcasts vidéo et appels téléphoniques, Grok reste légèrement en tête. Ces chiffres ont été publiés par xAI suite à ses propres tests, sans vérification par un tiers. En termes de tarification, le traitement par lot STT coûte 0,10 dollar par heure, en streaming 0,20 dollar par heure ; TTS est à 4,20 dollars pour 1 million de caractères. TTS supporte l’utilisation de balises de parole intégrées pour contrôler l’émotion et le rythme, comme \[laugh\], \[sigh\], \[whisper\], \ (Source : BlockBeats)

XAI6,47%

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

8 J'aime

Récompense
8
8
Reposter
Partager

Commentaire

Ajouter un commentaire

GateUser-af0710ba

· Il y a 42m

Horodatage au niveau des mots + séparation des locuteurs, un outil miracle pour la prise de notes de réunion en précommande

Voir l'originalRépondre0

GateUser-7919e6b9

· Il y a 9h

STT en masse à seulement 0,1 dollar/heure, moins cher que l'API Whisper.

Voir l'originalRépondre0

GateUser-28f37882

· Il y a 11h

La même pile a été alimentée par Grok Voice, l'infodivertissement, Starlink, cette vague d'intégration de ressources avec xAI a quelque chose de spécial

Voir l'originalRépondre0

Don'tMessWithSlippage.

· Il y a 11h

Grok cette pile audio est enfin ouverte au public, les propriétaires de Tesla sont ravis

Voir l'originalRépondre0

ReflectiveChainShadow

· Il y a 11h

Flux WebSocket en temps réel 0,2 dollar/heure, le scénario de sous-titres en direct peut-il fonctionner ?

Voir l'originalRépondre0

MossyLedger

· Il y a 11h

La comparaison WER sans réévaluation par un tiers, laissons d'abord les choses suivre leur cours.

Voir l'originalRépondre0

MistBlueLily

· Il y a 11h

La normalisation du texte inversé est très utile pour les assistants vocaux, enfin plus besoin d’écrire ses propres règles

Voir l'originalRépondre0

NodeUnderTheAurora

· Il y a 11h

4,2 dollars / million caractères de TTS, est-ce moins cher ou plus cher que ElevenLabs ? Quelqu'un a-t-il fait le calcul ?

Voir l'originalRépondre0

Sujets populaires
Afficher plus
#
StockTradingChallengeUpTo17000U
16.01M Popularité
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
828.15K Popularité
#
IsraelStrikesIranBTCPlunges
49.71K Popularité
#
GatePredictionMarketAddsSmartMoneyTracking
12.95M Popularité
#
MicronMarketCapBreaks1Trillion
42.23K Popularité

Épinglé

xAI ouvre l'API audio Grok STT et TTS, le taux d'erreur global de STT réduit à 6,9 %

Sujets populaires

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

Épinglé