智谱AI a publié le modèle de codage visuel GLM-5V-Turbo

robot
Création du résumé en cours

Nouvelles de ME : Message, le 2 avril (UTC+8). Zhipu AI a récemment publié son nouveau modèle de base de prochaine génération, GLM-5V-Turbo. Ce modèle vise à combler l’écart entre la perception visuelle et l’ingénierie logicielle. Contrairement aux modèles de langage à grande échelle standard qui ne dépendent que des invites textuelles, GLM-5V-Turbo prend nativement en charge le traitement d’entrées visuelles telles que des maquettes de conception et des captures d’écran ; il est présenté comme un « modèle de codage visuel ». Selon les points de vue exposés dans l’article, le modèle dispose de capacités natives de codage multimodal, lui permettant de comprendre divers types d’entrées tels que des images, des vidéos, des maquettes de conception et la mise en page des documents. En ce qui concerne l’équilibre entre les capacités visuelles et de programmation, il a obtenu des performances de premier plan aux tests de référence principaux. (Source : InFoQ)

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler