智谱AI a publié le modèle de codage visuel GLM-5V-Turbo

robot
Création du résumé en cours

Actualités ME : Le 2 avril (UTC+8), Zhipu AI a récemment publié son nouveau modèle de base de nouvelle génération GLM-5V-Turbo, conçu pour combler l’écart entre la perception visuelle et le génie logiciel. Contrairement aux grands modèles de langage standard qui ne reposent que sur des invites textuelles, GLM-5V-Turbo prend nativement en charge le traitement d’entrées visuelles telles que des maquettes, des captures d’écran, etc., et est présenté comme un « modèle d’encodage visuel ». D’après les points de vue exprimés dans l’article, ce modèle dispose de capacités natives d’encodage multimodal, lui permettant de comprendre divers types d’entrées, notamment des images, des vidéos, des maquettes et la mise en page des documents, et d’obtenir des performances de tout premier plan aux tests de référence principaux en termes d’équilibre entre compétences visuelles et capacités de programmation. (Source : InFoQ)

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler