Support 3500 paires de langues ! Alibaba lance le premier grand modèle de traduction simultanée améliorée visuellement Qwen3.5-LiveTranslate

robot
Création du résumé en cours
AIMPACT Message, 20 mai (UTC+8), selon la surveillance de Dongcha Beating, le système d'interprétation simultanée évolue d'une simple traduction vocale monotone vers un interprète numérique multimodal capable de comprendre les images et de cloner la voix humaine. Le 19 mai, le laboratoire Tongyi d'Alibaba a officiellement annoncé le lancement d'un nouveau modèle d'interprétation simultanée audio-vidéo en temps réel, Qwen3.5-LiveTranslate, qui étend considérablement les capacités d'interprétation simultanée à plus de 3 500 paires de langues, et prend en charge pour la première fois le clonage vocal en temps réel, la personnalisation de mots-clés et la compréhension visuelle. Basé sur l'architecture Qwen3.5-Omni, le nouveau modèle prend désormais en charge la compréhension et l'écriture de 60 langues, ainsi que la sortie vocale de 29 langues. Contrairement aux logiciels d'interprétation simultanée traditionnels qui ne font qu'écouter la voix, le nouveau modèle intègre un contexte visuel en temps réel pour éliminer les ambiguïtés sémantiques. Par exemple, lorsqu'un masque spécifique apparaît dans une vidéo, le système peut, en combinant les caractéristiques visuelles, distinguer précisément en anglais entre un masque médical et un masque de bal masqué, compensant ainsi le manque d'informations sonores. Pour éliminer les erreurs de transcription dues au bruit et aux accents, le nouveau modèle introduit également un mécanisme d'injection dynamique de mots-clés. La raison est simple : les utilisateurs peuvent spécifier directement des noms de personnes, des marques ou des termes techniques dans le flux de traduction, verrouillant ainsi la traduction correcte et empêchant les noms propres de dériver lors de l'interprétation simultanée. Lors de l'interprétation simultanée interlingue, le modèle prend également en charge le clonage vocal en temps réel, capable de reproduire en temps réel le timbre et le ton de la voix originale du locuteur dans le flux d'interprétation. Actuellement, le nouveau modèle est ouvert sur la plateforme de test Qwen Omni, et à l'avenir, l'API sera disponible sur la plateforme Alibaba Cloud Bailian. (Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire