Rapport technique de Zhipu GLM-5V-Turbo : Design2Code super Claude Opus4.6, écrivez directement le code à partir de la capture d'écran

robot
Création du résumé en cours

Selon le suivi Beating, le rapport technique de Zhipu AI sur GLM-5V-Turbo a été publié. Le modèle a été mis en ligne début avril via l’API Z.ai et OpenRouter, cette publication constitue une divulgation méthodologique complémentaire, le modèle n’étant pas open source. GLM-5V-Turbo est le premier modèle de base multimodal de programmation de Zhipu, supportant un contexte d’environ 200K, pouvant se connecter à des cadres d’agents tels que Claude Code et OpenClaw. Contrairement à la plupart des approches qui considèrent la vision comme un module attaché au modèle de langage, ce modèle intègre la perception visuelle dès la phase de pré-entraînement dans tout le processus de raisonnement, de planification, d’appel d’outils et d’exécution.

L’architecture du modèle comporte trois conceptions clés. La première est le nouveau encodeur visuel CogViT, pré-entraîné par distillation double enseignant avec SigLIP2 et DINOv3, puis aligné par apprentissage contrastif sur 8 milliards de données multimodales bilingues chinois-anglais. La deuxième est la prédiction multimodale multi-token (MMTP), utilisant un token spécial <|image|> partageable et apprenable pour remplacer la transmission directe d’images, réduisant la complexité de communication entre les phases de pipeline, tout en rendant l’entraînement plus stable. La troisième est l’apprentissage renforcé conjoint sur plus de 30 tâches, couvrant la perception, le raisonnement et l’exécution d’agents à trois niveaux.

Les améliorations durant la phase RL sont largement réparties : localisation d’images 2D +4,8 %, compréhension vidéo +5,6 %, localisation 3D +7,7 %, OCR +4,2 %, compréhension de graphiques +7,7 %, agent GUI (OSWorld) +4,9 %, appel d’outils de recherche multimodale +3,5 %. L’équipe indique dans leur article que l’apprentissage renforcé multi-tâches diffère de l’entraînement supervisé fin (SFT) en ce qu’il ne présente pas d’interférences inter-domaines, permettant à chaque capacité de s’améliorer de manière stable et conjointe, voire que des modes de raisonnement appris dans un domaine peuvent migrer vers d’autres.

Scores spécifiques : Design2Code 94,8, dépassant Claude Opus de 4,6 ; OSWorld 62,3, AndroidWorld 75,7 ; recherche multimodale MMSearch 72,9, BrowseComp-VL 51,9 ; programmation en texte pur sur le backend CC-Bench-V2 (22,8), le frontend (68,4) et l’exploration de dépôts de code (72,2) surpassant le modèle de base en texte pur GLM-5-Turbo. MMSearch-Plus a obtenu 30,0, soit près de 8 fois la performance de la génération précédente GLM-4.6V ; la nouvelle référence de recherche visuelle en profondeur ImageMining a obtenu 30,7.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler