Zhipu AI publie le rapport technique GLM-5V-Turbo, la première plateforme de programmation multimodale, avec un contexte d'environ 200K, pouvant se connecter à ClaudeCode/OpenClaw, non open source. Trois conceptions clés : codage visuel CogViT, token partagé MMTP<|image|>, apprentissage par renforcement conjoint pour plus de 30 tâches. Les améliorations multi-domaines par RL sont significatives, Design2Code 94.8, MMSearch-Plus 30.0, ImageMining 30.7.

BlockBeatNews

2026-05-08 02:53:48

Création du résumé en cours

Selon le suivi Beating, le rapport technique de Zhipu AI sur GLM-5V-Turbo a été publié. Le modèle a été mis en ligne début avril via l’API Z.ai et OpenRouter, cette publication constitue une divulgation méthodologique complémentaire, le modèle n’étant pas open source. GLM-5V-Turbo est le premier modèle de base multimodal de programmation de Zhipu, supportant un contexte d’environ 200K, pouvant se connecter à des cadres d’agents tels que Claude Code et OpenClaw. Contrairement à la plupart des approches qui considèrent la vision comme un module attaché au modèle de langage, ce modèle intègre la perception visuelle dès la phase de pré-entraînement dans tout le processus de raisonnement, de planification, d’appel d’outils et d’exécution.

L’architecture du modèle comporte trois conceptions clés. La première est le nouveau encodeur visuel CogViT, pré-entraîné par distillation double enseignant avec SigLIP2 et DINOv3, puis aligné par apprentissage contrastif sur 8 milliards de données multimodales bilingues chinois-anglais. La deuxième est la prédiction multimodale multi-token (MMTP), utilisant un token spécial <|image|> partageable et apprenable pour remplacer la transmission directe d’images, réduisant la complexité de communication entre les phases de pipeline, tout en rendant l’entraînement plus stable. La troisième est l’apprentissage renforcé conjoint sur plus de 30 tâches, couvrant la perception, le raisonnement et l’exécution d’agents à trois niveaux.

Les améliorations durant la phase RL sont largement réparties : localisation d’images 2D +4,8 %, compréhension vidéo +5,6 %, localisation 3D +7,7 %, OCR +4,2 %, compréhension de graphiques +7,7 %, agent GUI (OSWorld) +4,9 %, appel d’outils de recherche multimodale +3,5 %. L’équipe indique dans leur article que l’apprentissage renforcé multi-tâches diffère de l’entraînement supervisé fin (SFT) en ce qu’il ne présente pas d’interférences inter-domaines, permettant à chaque capacité de s’améliorer de manière stable et conjointe, voire que des modes de raisonnement appris dans un domaine peuvent migrer vers d’autres.

Scores spécifiques : Design2Code 94,8, dépassant Claude Opus de 4,6 ; OSWorld 62,3, AndroidWorld 75,7 ; recherche multimodale MMSearch 72,9, BrowseComp-VL 51,9 ; programmation en texte pur sur le backend CC-Bench-V2 (22,8), le frontend (68,4) et l’exploration de dépôts de code (72,2) surpassant le modèle de base en texte pur GLM-5-Turbo. MMSearch-Plus a obtenu 30,0, soit près de 8 fois la performance de la génération précédente GLM-4.6V ; la nouvelle référence de recherche visuelle en profondeur ImageMining a obtenu 30,7.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
GateSquareMayTradingShare
750K Popularité
#
BitcoinFallsBelow80K
95.02M Popularité
#
IsraelStrikesIranBTCPlunges
44.29K Popularité
#
IranUSConflictEscalates
87.99K Popularité
#
OilPriceRollerCoaster
305.76K Popularité

Épingler

Rapport technique de Zhipu GLM-5V-Turbo : Design2Code super Claude Opus4.6, écrivez directement le code à partir de la capture d'écran

Sujets populaires

GateSquareMayTradingShare

BitcoinFallsBelow80K

IsraelStrikesIranBTCPlunges

IranUSConflictEscalates

OilPriceRollerCoaster

Épingler