xAI lance l'API de transcription vocale et de synthèse vocale Grok

robot
Création du résumé en cours
ME News Actualités, le 18 avril (UTC+8), xAI a récemment annoncé le lancement officiel de deux API audio indépendantes : Grok Speech-to-Text (STT) et Grok Text-to-Speech (TTS).
Grok STT offre un service de transcription à haute précision et à faible latence, prenant en charge le traitement en lot via API REST et la transcription en flux en temps réel via API WebSocket, avec des fonctionnalités telles que les horodatages au niveau des mots, la séparation des locuteurs, la prise en charge multi-pistes et la normalisation intelligente du texte inversé.
Il est mentionné dans l'article qu'il dépasse les modèles commerciaux principaux tels qu'ElevenLabs, Deepgram et AssemblyAI en termes de taux d'erreur sur des benchmarks dans plusieurs domaines comme les appels téléphoniques, les réunions, la vidéo/podcasts.
Ce service supporte plus de 25 langues, avec un prix de 0,10 USD par heure pour le traitement en lot et 0,20 USD par heure pour le traitement en flux.
Grok TTS peut générer une voix rapide, naturelle et expressive, avec un contrôle granulaire via des balises vocales simples, au prix de 4,20 USD pour 1 million de caractères.
Les deux API sont basées sur la même pile technologique qui alimente Grok Voice, les véhicules Tesla et le support client Starlink.
(Source : InFoQ)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 5
  • 1
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
GateUser-99725296
· Il y a 4h
Est-ce que cette fluctuation de prix peut tenir ? Voyons comment Azure et AWS réagissent.
Voir l'originalRépondre0
0xLateBreakfast
· Il y a 4h
Le prix en mode batch et en mode streaming est deux fois plus élevé, l'entreprise doit bien faire ses comptes.
Voir l'originalRépondre0
RiskOffRina
· Il y a 5h
La prise en charge multicanal est essentielle pour la transcription de réunions, enfin plus besoin de faire l'alignement soi-même.
Voir l'originalRépondre0
WalletHealthInspector
· Il y a 5h
Grok Voice utilise ces deux API, n'est-ce pas, ils ont enfin été séparés
Voir l'originalRépondre0
MosaicBowtieRealm
· Il y a 5h
Quels paramètres précis peuvent être contrôlés par les étiquettes de contrôle granulaire, la vitesse de parole, le ton ou encore l'émotion ?
Voir l'originalRépondre0
  • Épinglé