xAI ouvre l'API audio Grok STT et TTS, le taux d'erreur global du STT réduit à 6,9 %

robot
Création du résumé en cours
ME News Actualités, le 18 avril (UTC+8), selon la surveillance de Dongcha Beating, xAI a lancé deux API audio indépendantes : Grok Speech to Text et Grok Text to Speech. Les deux proviennent de la même pile audio supportant Grok Voice, le système embarqué de Tesla et le service client Starlink, et sont désormais accessibles sous forme de points de terminaison indépendants, permettant aux développeurs d’intégrer directement des applications de proxy vocal, de transcription en temps réel, d’outils d’accessibilité et de podcasts. STT propose deux modes. L’API REST pour la transcription en masse de grands fichiers audio, avec un retour en millisecondes ; l’API WebSocket pour le flux vocal en temps réel. Les capacités associées incluent des horodatages au niveau des mots, la séparation des locuteurs (diarization), la reconnaissance multi-canaux, ainsi que la Normalisation Inverse du Texte, c’est-à-dire la mise en forme automatique des chiffres, dates, devises dans le discours en texte structuré normalisé. La couverture linguistique dépasse 25 langues, avec une commutation fluide en conversation. xAI a également publié un ensemble de comparaisons du taux d’erreur de reconnaissance (WER, plus la valeur est basse, mieux c’est) : dans le scénario global, Grok 6,9 %, ElevenLabs 9,0 %, Deepgram 11,0 %, AssemblyAI 12,9 % ; la différence pour la « reconnaissance d’entités dans les appels téléphoniques » est encore plus grande, Grok 5,0 %, contre respectivement 12,0 %, 13,5 %, 21,3 % pour les trois autres. Dans les scénarios courants de réunions, podcasts vidéo et appels téléphoniques, Grok reste légèrement en tête. Ces chiffres ont été publiés par xAI lors de tests internes, sans vérification par un tiers. En termes de tarification, le traitement par lot STT coûte 0,10 dollar par heure, le flux en continu 0,20 dollar par heure ; TTS à 4,20 dollars pour 1 million de caractères. TTS supporte l’utilisation de balises de parole intégrées pour contrôler l’émotion et le rythme, comme \[laugh\], \[sigh\], \[whisper\], (Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 12
  • 1
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
WhitepaperByTheRoadside
· Il y a 2h
Horodatage au niveau des mots + séparation des locuteurs, le scénario de compte rendu de réunion devient fou.
Voir l'originalRépondre0
Lime-ColoredStop-LossLine
· Il y a 14h
Traitement par lots 0,1 dollar/heure, c'est vraiment tentant, mais avec une tarification en flux doublée, cela vous pousse clairement à opter pour le traitement en masse
Voir l'originalRépondre0
GateUser-83a2dd8a
· Il y a 14h
25+ langues couvertes, comment est l'efficacité en chinois, quelqu'un l'a-t-il testé ?
Voir l'originalRépondre0
TheProphetOfToast
· Il y a 16h
Étiquettes en ligne de la métrique émotionnelle, enfin plus besoin d'écouter le robot lire le script
Voir l'originalRépondre0
GateUser-b665e41c
· Il y a 17h
Intégration du système embarqué Tesla, quelle est la latence de l'interaction vocale en conduite en millisecondes ?
Voir l'originalRépondre0
PunkRiskMgr
· Il y a 17h
Le service client de Starlink est désormais utilisé, et la reconnaissance des accents dans les zones rurales est devenue une mine de données d'entraînement.
Voir l'originalRépondre0
ToBeHonest,You'llLose
· Il y a 17h
De la vague des LLM à la voix, la guerre multimodale entre officiellement dans la seconde moitié
Voir l'originalRépondre0
HashbrownHero
· Il y a 17h
Transcription en masse de ces prix, les groupes de sous-titres et les animateurs de podcasts envisagent probablement une migration collective
Voir l'originalRépondre0
GateUser-bee672a5
· Il y a 17h
Attendre qu'une communauté open source reproduise le benchmark WER de xAI a pour habitude de douter d'abord
Voir l'originalRépondre0
TwoFactorZen
· Il y a 17h
REST + WebSocket double mode, convivialité maximale pour les développeurs
Voir l'originalRépondre0
Afficher plus