智谱AI a publié le modèle de codage visuel GLM-5V-Turbo

MeNews · 2026-04-02T00:45:03+00:00

智谱AI a publié la nouvelle génération de modèle de base GLM-5V-Turbo, prenant en charge l'entrée visuelle comme les esquisses de conception et les captures d'écran, doté de capacités de codage multimodal, réalisant un équilibre entre compétences visuelles et en programmation, et performe exceptionnellement bien dans les tests de référence principaux.

MeNews

2026-04-02 00:45:03

Création du résumé en cours

Nouvelles ME, le 2 avril (UTC+8) : Zhipu AI a récemment publié son nouveau modèle de base de nouvelle génération, GLM-5V-Turbo. Ce modèle vise à combler l’écart entre la perception visuelle et le génie logiciel. Contrairement aux modèles de grands langages standards qui ne reposent que sur des invites textuelles, GLM-5V-Turbo prend nativement en charge le traitement d’entrées visuelles telles que des maquettes de conception et des captures d’écran ; il est présenté comme un « modèle d’encodage visuel ». D’après les points de vue évoqués dans l’article, ce modèle dispose de capacités natives d’encodage multimodal, lui permettant de comprendre diverses formes d’entrées telles que des images, des vidéos, des maquettes de conception et la mise en page des documents, et d’obtenir, en termes d’équilibre entre les capacités visuelles et de programmation, des performances de premier plan lors de tests de référence centraux. (Source : InFoQ)

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

2 J'aime