ME News Actualités, le 18 avril (UTC+8), selon la surveillance de Dongcha Beating, xAI a lancé deux API audio indépendantes : Grok Speech to Text et Grok Text to Speech.
Les deux proviennent de la même pile audio supportant Grok Voice, le système embarqué de Tesla et le service client Starlink, et sont désormais accessibles sous forme de points de terminaison indépendants, permettant aux développeurs d’intégrer directement des applications de proxy vocal, de transcription en temps réel, d’outils d’accessibilité et de podcasts.
STT propose deux modes.
L’API REST est utilisée pour la transcription en lot de grands fichiers audio, avec un retour en millisecondes ;
L’API WebSocket vise le flux vocal en temps réel.
Les capacités associées incluent des horodatages au niveau des mots, la séparation des locuteurs (diarization), la reconnaissance multi-canaux, ainsi que la Normalisation Inverse du Texte, c’est-à-dire la mise en forme automatique des chiffres, dates, devises dans le discours en textes structurés normalisés.
Plus de 25 langues sont couvertes, avec une commutation fluide dans la conversation.
xAI a également publié un ensemble de comparaisons du taux d’erreur de reconnaissance de mots (WER, plus la valeur est basse, mieux c’est) :
Grok 6,9 %,
ElevenLabs 9,0 %,
Deepgram 11,0 %,
AssemblyAI 12,9 % ;
la différence est encore plus marquée pour la « reconnaissance d’entités dans les appels téléphoniques » :
Grok 5,0 %,
contre respectivement 12,0 %, 13,5 %, 21,3 % pour les trois autres.
Dans les scénarios courants tels que réunions, podcasts vidéo et appels téléphoniques, Grok reste légèrement en tête.
Ces chiffres ont été publiés par xAI suite à ses propres tests, sans vérification par un tiers.
En termes de tarification, le traitement par lot STT coûte 0,10 dollar par heure, le flux en continu 0,20 dollar par heure ;
TTS est à 4,20 dollars pour 1 million de caractères.
TTS supporte l’utilisation de balises de parole intégrées pour contrôler l’émotion et le rythme, comme \[laugh\], \[sigh\], \[whisper\], \ (Source : BlockBeats)

XAI0,66%

GROK-5,89%

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

7 J'aime

Récompense
7
7
Reposter
Partager

Commentaire

Ajouter un commentaire

BudgetValidator

· Il y a 17m

L'infrastructure vocale commence à se standardiser, ce qui profite aux développeurs de petite et moyenne taille

Voir l'originalRépondre0

MirrorBallGazingAtTheSky

· Il y a 2h

Une seule pile supporte trois scénarios, Musk joue à la réutilisation à fond.

Voir l'originalRépondre0

AirdropSidequest

· Il y a 3h

WebSocket convient pour le flux en continu, REST convient pour l'archivage, conception raisonnable

Voir l'originalRépondre0

CandlewickKid

· Il y a 7h

xAI a enfin séparé la pile vocale, les développeurs sont en délire

Voir l'originalRépondre0

RetroRadioSignal

· Il y a 7h

Grok a mis STT en mode REST + WebSocket, prenant en compte à la fois le traitement en batch et en temps réel, c'est assez détaillé

Voir l'originalRépondre0

PatinaTradingBell

· Il y a 7h

La pile audio utilisée par Tesla et Starlink doit avoir fait ses preuves en termes de fiabilité.

Voir l'originalRépondre0

OracleBabysitter

· Il y a 8h

Outil d'accessibilité +1, c'est ça la chaleur que la technologie devrait avoir

Voir l'originalRépondre0

Sujets populaires
Afficher plus
#
StockTradingChallengeUpTo17000U
16.23M Popularité
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
817.54K Popularité
#
IsraelStrikesIranBTCPlunges
49.57K Popularité
#
GatePredictionMarketAddsSmartMoneyTracking
13.2M Popularité
#
MicronMarketCapBreaks1Trillion
36.87K Popularité

Épinglé

xAI ouvre l'API audio Grok STT et TTS, le taux d'erreur global de STT réduit à 6,9 %

Sujets populaires

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

Épinglé