xAI lance l'API de transcription vocale et de synthèse vocale Grok

robot
Création du résumé en cours
ME News Actualités, le 18 avril (UTC+8), xAI a récemment annoncé le lancement officiel de deux API audio indépendantes : Grok Speech-to-Text (STT) et Grok Text-to-Speech (TTS).
Grok STT offre un service de transcription à haute précision et à faible latence, prenant en charge le traitement en lot via API REST et la transcription en flux en temps réel via API WebSocket, avec des fonctionnalités telles que les horodatages au niveau des mots, la séparation des locuteurs, la prise en charge du multi-piste et la normalisation intelligente du texte inversé.
Il est mentionné que, dans des tests de référence dans plusieurs domaines tels que les appels téléphoniques, les réunions, la vidéo/podcasts, ses taux d’erreur de mots surpassent ceux de modèles commerciaux grand public comme ElevenLabs, Deepgram et AssemblyAI.
Ce service supporte plus de 25 langues, avec un tarif de 0,10 USD par heure pour le traitement en lot et 0,20 USD par heure pour le traitement en flux.
Grok TTS peut générer une voix rapide, naturelle et expressive, avec un contrôle granulaire via des balises vocales simples, au prix de 4,20 USD pour un million de caractères.
Les deux API sont basées sur la même pile technologique qui alimente Grok Voice, les véhicules Tesla et le support client Starlink.
(Source : InFoQ)
XAI-0,8%
GROK-1,31%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 3
  • 2
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
RedTelephoneBoothRuins
· Il y a 8h
La latence de transcription en temps réel via WebSocket peut-elle être améliorée, essentielle pour les scénarios de streaming en direct
Voir l'originalRépondre0
QueuePosition
· Il y a 8h
Le prix de 4,20 dollars est-il une blague, Elon Musk n'oublie vraiment pas son côté meme.
Voir l'originalRépondre0
NeonMargin
· Il y a 9h
Marquage temporel au niveau des mots + séparation des locuteurs, la joie de l'édition de podcasts
Voir l'originalRépondre0
  • Épinglé