【AI+2513】Zhipu annonce le modèle de base de codage multimodal de programmation visuelle GLM-5V-Turbo

robot
Création du résumé en cours

Un des principaux acteurs de l’intelligence artificielle (IA) sur le continent, Zhipu (02513) Jeudi (2) a publié un modèle de base de programmation multimodale Coding GLM-5V-Turbo conçu pour la programmation visuelle.

Zhipu indique que GLM-5V-Turbo intègre en profondeur, dès l’étape d’entraînement préalable, les capacités visuelles et textuelles : la programmation n’est plus limitée à une entrée en texte seul. Le modèle comprend les maquettes, les captures d’écran et les interfaces web, puis génère du code complet et exécutable, réalisant véritablement « voir l’image et comprendre l’écran » et « écrire le code ».

Trois points forts de GLM-5V-Turbo

  • Base de programmation Coding multimodale native : compréhension native des images, vidéos, maquettes, mises en page de documents, etc., avec prise en charge d’outils multimodaux tels que le cadrage, les captures d’écran, la navigation web, etc., et une extension de la fenêtre de contexte jusqu’à 200k
  • Équilibre entre capacités visuelles et de programmation : résultats de pointe sur les références clés telles que la programmation multimodale Coding, Tool Use et GUI Agent. Grâce à des techniques comme la RL de coordination multi-tâches, il est garanti que les capacités de programmation, de raisonnement et d’appel d’outils dans les scénarios en texte seul ne régressent pas.
  • Adaptation approfondie à Claude Code et aux scénarios de « crustacés » : coopération approfondie avec Claude Code, OpenClaw/AutoClaw et d’autres agents, prise en charge de la boucle complète « comprendre l’environnement → planifier les actions → exécuter la tâche », et fourniture d’un ensemble complet de Skills officiels, prêts à l’emploi.

Zhipu indique que, sur les référentiels de la programmation multimodale, des tâches agentic et de la dimension Coding en texte seul, GLM-5V-Turbo obtient des performances de pointe avec une taille de modèle plus petite.

	![](https://img-cdn.gateio.im/social/moments-d1c5841902-024843c1ac-8b7abd-badf29)

GLM-5V-Turbo a également obtenu des performances de pointe sur les références telles que la restauration de maquettes, la génération de code visuel, la recherche et la réponse multimodales, et l’exploration visuelle ; sur des références qui évaluent la capacité réelle de contrôle dans des environnements GUI comme AndroidWorld et WebVoyager, il est également particulièrement performant.

En ce qui concerne les capacités de Coding en texte seul, GLM-5V-Turbo conserve des performances stables dans les tests des trois références clés du CC-Bench-V2, à savoir Backend, Frontend et Repo Exploration, ce qui montre qu’après l’introduction des capacités visuelles, les capacités de programmation et de raisonnement en texte seul restent au même niveau.

	![](https://img-cdn.gateio.im/social/moments-ad1d8e7241-eb753f4f45-8b7abd-badf29)

Selon la présentation, la performance de pointe de GLM-5V-Turbo provient d’une mise à niveau systémique à quatre niveaux : l’architecture du modèle, les méthodes d’entraînement, la construction des données et la chaîne d’outils :

Face aux défis de l’industrie que sont la rareté des données d’agent et la difficulté de vérification, Zhipu a construit une architecture multicouche allant de la perception d’éléments à la prédiction d’actions au niveau de séquence. En s’appuyant sur des environnements synthétiques, elle génère à grande échelle des données d’entraînement contrôlables et vérifiables, puis injecte dès l’étape d’entraînement préalable des capacités méta agentic (par exemple, l’ajout de données PRM pour GUI Agent dans l’entraînement préalable afin de réduire les hallucinations). En parallèle, elle explore des optimisations asymétriques afin d’exploiter des tâches d’évaluation multimodales pour faire émerger des capacités d’agent plus puissantes.

Programmation de Cap图 directement

Côté applications, Zhipu donne des exemples :

  1. L’image = du code

GLM-5V-Turbo est particulièrement doué pour les scénarios clés de programmation visuelle.

Restauration côté front-end : envoyer des esquisses, des maquettes, ainsi que des captures d’écran ou des enregistrements d’un site de référence — le modèle peut alors comprendre directement la disposition, les combinaisons de couleurs, les niveaux de composants et la logique d’interaction, générer un projet front-end complet et exécutable, et reproduire avec précision les détails visuels tels que la mise en page, les couleurs et les effets d’animation.

Restauration par exploration autonome d’une interface graphique : en combinant des cadres comme Claude Code, GLM-5V-Turbo, grâce à sa puissante capacité de GUI Agent, peut explorer de manière autonome le site web cible, parcourir la structure des pages, organiser les relations de navigation entre les différentes pages, collecter des éléments visuels et des détails d’interaction, puis générer directement le code pour reproduire l’ensemble du site à partir des résultats d’exploration enregistrés, réalisant un saut de « reproduire en regardant des images » à « reproduire par exploration GUI ».

Édition interactive : prise en charge de l’ajout/suppression de modules de pages selon les besoins, modification du texte et des styles, ajustement de la structure de mise en page ; et possibilité d’ajouter des fonctionnalités d’interaction telles que retours de boutons, changement de fenêtres modales, liaisons de formulaires, etc., pour permettre une édition itérative via une interface visuelle.

  1. Mettre des yeux à l’écrevisse

Les limites de la tâche de l’écrevisse ont été considérablement élargies : par exemple, elle peut parcourir des pages web et des documents, générer des rapports et des PPT riches en texte et en images, et aussi rechercher et interpréter des graphiques complexes tels que les courbes de K.

AutoClaw a déjà mis en ligne le Skill « analyste boursier ». En utilisant les capacités visuelles natives de GLM-5V-Turbo, l’écrevisse peut comprendre directement la trajectoire du prix de l’action, les graphiques des plages de valorisation et ceux des rapports de courtage, réalisant une collecte parallèle en 60 secondes à partir de quatre sources de données, puis produisant un rapport de recherche avec une alternance de texte et d’images. Il est désormais possible de basculer vers GLM-5V-Turbo dans AutoClaw et d’essayer de poser la question : « Aide-moi à analyser le cours de l’action XXX d’aujourd’hui et génère un rapport d’analyse professionnel ».

En plus de la programmation visuelle et des tâches de l’écrevisse, GLM-5V-Turbo a également réalisé des améliorations de performance significatives dans des scénarios agentic plus larges tels que la recherche multimodale, la recherche approfondie, GUI Agent et le Grounding de perception.

À cet effet, une série de Skills officiels est fournie, couvrant des capacités natives telles que l’image Captioning, le Grounding visuel, l’écriture basée sur des documents, la sélection de CV, la génération d’instructions, etc., ainsi que des capacités de reconnaissance de texte, de reconnaissance de tableaux, de reconnaissance d’écriture manuscrite, de reconnaissance d’équations et de génération de texte vers image construites sur GLM-OCR et GLM-Image. Cela aide les utilisateurs à libérer le potentiel multimodal du modèle dans davantage de scénarios. Ces Skills ont déjà été mis en ligne sur ClawHub : un simple clic pour installer et profiter de l’ensemble des capacités.

		Discussion chaude en finance
	





	Une guerre de longue durée entre l’Iran et Israël ? Le marché sous-estime-t-il le risque de récession économique mondiale ?
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler