Futures
Accédez à des centaines de contrats perpétuels
TradFi
Or
Une plateforme pour les actifs mondiaux
Options
Hot
Tradez des options classiques de style européen
Compte unifié
Maximiser l'efficacité de votre capital
Trading démo
Introduction au trading futures
Préparez-vous à trader des contrats futurs
Événements futures
Participez aux événements et gagnez
Demo Trading
Utiliser des fonds virtuels pour faire l'expérience du trading sans risque
Lancer
CandyDrop
Collecte des candies pour obtenir des airdrops
Launchpool
Staking rapide, Gagnez de potentiels nouveaux jetons
HODLer Airdrop
Conservez des GT et recevez d'énormes airdrops gratuitement
Launchpad
Soyez les premiers à participer au prochain grand projet de jetons
Points Alpha
Tradez on-chain et gagnez des airdrops
Points Futures
Gagnez des points Futures et réclamez vos récompenses d’airdrop.
Investissement
Simple Earn
Gagner des intérêts avec des jetons inutilisés
Investissement automatique
Auto-invest régulier
Double investissement
Profitez de la volatilité du marché
Staking souple
Gagnez des récompenses grâce au staking flexible
Prêt Crypto
0 Fees
Mettre en gage un crypto pour en emprunter une autre
Centre de prêts
Centre de prêts intégré
【AI+2513】Zhipu annonce le modèle de base de codage multimodal de programmation visuelle GLM-5V-Turbo
Un des principaux acteurs de l’intelligence artificielle (IA) sur le continent, Zhipu (02513) Jeudi (2) a publié un modèle de base de programmation multimodale Coding GLM-5V-Turbo conçu pour la programmation visuelle.
Zhipu indique que GLM-5V-Turbo intègre en profondeur, dès l’étape d’entraînement préalable, les capacités visuelles et textuelles : la programmation n’est plus limitée à une entrée en texte seul. Le modèle comprend les maquettes, les captures d’écran et les interfaces web, puis génère du code complet et exécutable, réalisant véritablement « voir l’image et comprendre l’écran » et « écrire le code ».
Trois points forts de GLM-5V-Turbo
Zhipu indique que, sur les référentiels de la programmation multimodale, des tâches agentic et de la dimension Coding en texte seul, GLM-5V-Turbo obtient des performances de pointe avec une taille de modèle plus petite.
GLM-5V-Turbo a également obtenu des performances de pointe sur les références telles que la restauration de maquettes, la génération de code visuel, la recherche et la réponse multimodales, et l’exploration visuelle ; sur des références qui évaluent la capacité réelle de contrôle dans des environnements GUI comme AndroidWorld et WebVoyager, il est également particulièrement performant.
En ce qui concerne les capacités de Coding en texte seul, GLM-5V-Turbo conserve des performances stables dans les tests des trois références clés du CC-Bench-V2, à savoir Backend, Frontend et Repo Exploration, ce qui montre qu’après l’introduction des capacités visuelles, les capacités de programmation et de raisonnement en texte seul restent au même niveau.
Selon la présentation, la performance de pointe de GLM-5V-Turbo provient d’une mise à niveau systémique à quatre niveaux : l’architecture du modèle, les méthodes d’entraînement, la construction des données et la chaîne d’outils :
Face aux défis de l’industrie que sont la rareté des données d’agent et la difficulté de vérification, Zhipu a construit une architecture multicouche allant de la perception d’éléments à la prédiction d’actions au niveau de séquence. En s’appuyant sur des environnements synthétiques, elle génère à grande échelle des données d’entraînement contrôlables et vérifiables, puis injecte dès l’étape d’entraînement préalable des capacités méta agentic (par exemple, l’ajout de données PRM pour GUI Agent dans l’entraînement préalable afin de réduire les hallucinations). En parallèle, elle explore des optimisations asymétriques afin d’exploiter des tâches d’évaluation multimodales pour faire émerger des capacités d’agent plus puissantes.
Programmation de Cap图 directement
Côté applications, Zhipu donne des exemples :
GLM-5V-Turbo est particulièrement doué pour les scénarios clés de programmation visuelle.
Restauration côté front-end : envoyer des esquisses, des maquettes, ainsi que des captures d’écran ou des enregistrements d’un site de référence — le modèle peut alors comprendre directement la disposition, les combinaisons de couleurs, les niveaux de composants et la logique d’interaction, générer un projet front-end complet et exécutable, et reproduire avec précision les détails visuels tels que la mise en page, les couleurs et les effets d’animation.
Restauration par exploration autonome d’une interface graphique : en combinant des cadres comme Claude Code, GLM-5V-Turbo, grâce à sa puissante capacité de GUI Agent, peut explorer de manière autonome le site web cible, parcourir la structure des pages, organiser les relations de navigation entre les différentes pages, collecter des éléments visuels et des détails d’interaction, puis générer directement le code pour reproduire l’ensemble du site à partir des résultats d’exploration enregistrés, réalisant un saut de « reproduire en regardant des images » à « reproduire par exploration GUI ».
Édition interactive : prise en charge de l’ajout/suppression de modules de pages selon les besoins, modification du texte et des styles, ajustement de la structure de mise en page ; et possibilité d’ajouter des fonctionnalités d’interaction telles que retours de boutons, changement de fenêtres modales, liaisons de formulaires, etc., pour permettre une édition itérative via une interface visuelle.
Les limites de la tâche de l’écrevisse ont été considérablement élargies : par exemple, elle peut parcourir des pages web et des documents, générer des rapports et des PPT riches en texte et en images, et aussi rechercher et interpréter des graphiques complexes tels que les courbes de K.
AutoClaw a déjà mis en ligne le Skill « analyste boursier ». En utilisant les capacités visuelles natives de GLM-5V-Turbo, l’écrevisse peut comprendre directement la trajectoire du prix de l’action, les graphiques des plages de valorisation et ceux des rapports de courtage, réalisant une collecte parallèle en 60 secondes à partir de quatre sources de données, puis produisant un rapport de recherche avec une alternance de texte et d’images. Il est désormais possible de basculer vers GLM-5V-Turbo dans AutoClaw et d’essayer de poser la question : « Aide-moi à analyser le cours de l’action XXX d’aujourd’hui et génère un rapport d’analyse professionnel ».
En plus de la programmation visuelle et des tâches de l’écrevisse, GLM-5V-Turbo a également réalisé des améliorations de performance significatives dans des scénarios agentic plus larges tels que la recherche multimodale, la recherche approfondie, GUI Agent et le Grounding de perception.
À cet effet, une série de Skills officiels est fournie, couvrant des capacités natives telles que l’image Captioning, le Grounding visuel, l’écriture basée sur des documents, la sélection de CV, la génération d’instructions, etc., ainsi que des capacités de reconnaissance de texte, de reconnaissance de tableaux, de reconnaissance d’écriture manuscrite, de reconnaissance d’équations et de génération de texte vers image construites sur GLM-OCR et GLM-Image. Cela aide les utilisateurs à libérer le potentiel multimodal du modèle dans davantage de scénarios. Ces Skills ont déjà été mis en ligne sur ClawHub : un simple clic pour installer et profiter de l’ensemble des capacités.