xAI lance l'API de transcription vocale et de synthèse vocale Grok

robot
Création du résumé en cours
ME News Actualités, le 18 avril (UTC+8), xAI a récemment annoncé le lancement officiel de deux API audio indépendantes : Grok Speech-to-Text (STT) et Grok Text-to-Speech (TTS).
Grok STT offre un service de transcription précis avec une faible latence, prenant en charge le traitement en lot via API REST et la transcription en flux en temps réel via API WebSocket, avec des fonctionnalités telles que les horodatages au niveau des mots, la séparation des locuteurs, la prise en charge multi-pistes et la normalisation intelligente du texte inversé.
Il est mentionné dans l'article qu'il affiche un taux d'erreur sur les mots inférieur à celui de modèles commerciaux grand public tels qu'ElevenLabs, Deepgram et AssemblyAI lors de tests de référence dans plusieurs domaines comme les appels téléphoniques, les réunions, la vidéo/podcasts.
Ce service supporte plus de 25 langues, avec un prix de 0,10 USD par heure pour le traitement en lot et 0,20 USD par heure pour le traitement en flux.
Grok TTS peut générer une voix rapide, naturelle et expressive, avec un contrôle granulaire via des balises vocales simples, au prix de 4,20 USD pour 1 million de caractères.
Les deux API sont basées sur la même pile technologique qui alimente Grok Voice, les véhicules Tesla et le support client Starlink.
(Source : InFoQ)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 5
  • 2
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Mint-ColoredCalmness
· Il y a 6h
La commande vocale du système de Tesla doit-elle être mise à jour ? Starlink peut aussi être utilisé, c'est plutôt intéressant
Voir l'originalRépondre0
SummerNightColdWallet
· Il y a 6h
Qu'est-ce que la normalisation inversée du texte, cette technologie innovante, la conversion automatique de chiffres en texte ?
Voir l'originalRépondre0
NekoValidator
· Il y a 6h
0.1 dollar/heure prix de gros, plus de 25 langues, cette fois Whisper va tout écraser
Voir l'originalRépondre0
Cream-ColoredCross-ChainBridge
· Il y a 7h
REST en mode batch + flux WebSocket en double mode, une convivialité maximale pour les développeurs
Voir l'originalRépondre0
GateUser-deff9ed8
· Il y a 7h
xAI commence la vente d'API, boucle écologique de Musk +1
Voir l'originalRépondre0
  • Épinglé