Tongyi intègre Vibe Coding dans le multimodal, Qwen3.5-Omni remporte 215 records SOTA

robot
Création du résumé en cours

D’après les données de surveillance de 1M AI News, l’éditeur Tongyi Laboratory a publié le modèle multimodal Qwen3.5-Omni, qui prend en charge des entrées de texte, d’images, d’audio et de vidéo, et peut générer des captions audio/vidéo détaillées avec des horodatages. Officiellement, Qwen3.5-Omni-Plus aurait obtenu 215 SOTA dans des tâches telles que l’analyse de l’audio et de la vidéo, le raisonnement, la conversation et la traduction, et ses capacités seraient supérieures à celles de Gemini-3.1-Pro.

Cette fois, l’incrément le plus particulier n’est pas le classement, mais la capacité d’émergence naturelle de la « codification de l’ambiance audio-visuelle ». Tongyi affirme que le modèle n’a pas été entraîné spécifiquement et qu’il peut déjà générer directement du code exécutable à partir d’instructions audio/vidéo. L’officiel ajoute également que ce modèle prend en charge un contexte de 256K, reconnaît 113 langues, peut traiter 10 heures d’audio ou 1 heure de vidéo, et inclut nativement WebSearch et des appels de fonctions complexes.

Qwen3.5-Omni poursuit l’architecture de répartition Thinker-Talker : les deux parties ont été mises à niveau vers Hybrid-Attention MoE. Tongyi a fourni via Alibaba Cloud BaiLian trois tailles (Plus, Flash, Light) et a également lancé la version en temps réel Qwen3.5-Omni-Plus-Realtime.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler