Selon le site Coinjie, Alibaba Qianwen annonce le lancement du modèle multimodal complet Qwen3.5-Omni. La série Qwen3.5-Omni comprend des versions Instruct de trois tailles : Plus, Flash et Light, prenant en charge un contexte de 256k. Le modèle supporte plus de 10 heures d'entrée audio et plus de 400 secondes d'entrée audio et vidéo en 720P (1FPS). Le modèle a été pré-entraîné de manière native sur d'énormes volumes de textes, de visuels et plus de 100 millions d'heures de données audio et vidéo, démontrant d'excellentes capacités de perception et de génération multimodale. Par rapport à Qwen3-Omni, la capacité multilingue de Qwen3.5-Omni a été considérablement améliorée, supportant la reconnaissance vocale dans 113 langues et dialectes, ainsi que la génération vocale dans 36 langues et dialectes.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler