xAI lance l'API de reconnaissance vocale et de synthèse vocale Grok

robot
Création du résumé en cours

ME News Actualités, le 18 avril (UTC+8), xAI a récemment annoncé le lancement officiel de deux API audio indépendantes : Grok Speech-to-Text (STT) et Grok Text-to-Speech (TTS). Grok STT offre un service de transcription précis avec une faible latence, prenant en charge le traitement en lot via API REST et la transcription en flux en temps réel via API WebSocket, avec des fonctionnalités telles que la timestamping au niveau des mots, la séparation des locuteurs, la prise en charge du multi-piste et la normalisation intelligente du texte inversé. Il est mentionné que, dans des tests de référence dans plusieurs domaines tels que les appels téléphoniques, les réunions, les vidéos/podcasts, ses taux d’erreur de mots surpassent ceux de modèles commerciaux grand public comme ElevenLabs, Deepgram et AssemblyAI. Ce service supporte plus de 25 langues, avec un tarif de 0,10 USD par heure pour le traitement en lot et 0,20 USD par heure pour le traitement en flux. Grok TTS peut générer une voix rapide, naturelle et expressive, avec un contrôle granulé via des balises vocales simples, au prix de 4,20 USD pour un million de caractères. Les deux API sont basées sur la même pile technologique qui alimente Grok Voice, les véhicules Tesla et le support client Starlink. (Source : InFoQ)

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler