【AI+2513】Zhipu lanza el modelo base de codificación multimodal de programación visual GLM-5V-Turbo

robot
Generación de resúmenes en curso

Una de las principales plataformas de IA en la zona continental, (02513) El jueves (2) lanzó un modelo base de programación multimodal para crear programación visual, Coding, GLM-5V-Turbo.

Zhipu indica que GLM-5V-Turbo fusiona en profundidad las capacidades de visión y texto desde la fase de preentrenamiento; la programación ya no se limita a la entrada de solo texto. El modelo entiende diseños, capturas de pantalla y la interfaz web, y con base en ello genera código completo y ejecutable, logrando de verdad “entender lo que aparece en pantalla y escribir el código”.

Tres características de GLM-5V-Turbo

  • Base nativa multimodal para Coding: comprensión nativa de imágenes, video, diseños, maquetaciones de documentos, etc., con soporte para llamadas de herramientas multimodales como encuadres, capturas, lectura de páginas web, etc.; la ventana de contexto se amplía hasta 200k
  • Equilibrio entre capacidades de visión y de programación: logra resultados líderes en benchmarks centrales como multimodal Coding, Tool Use, GUI Agent, etc. Mediante técnicas como RL de coordinación multitarea, se garantiza que en escenarios de solo texto no se degraden capacidades como programación, razonamiento y uso de herramientas.
  • Adaptación profunda a los escenarios de Claude Code y de “langosta”: colaboración profunda con agentes como Claude Code, OpenClaw/AutoClaw; admite el ciclo cerrado completo de “entender el entorno → planificar acciones → ejecutar tareas”, y proporciona un conjunto completo de Skills oficiales, listo para usar.

Zhipu señala que, en los benchmarks de evaluación para multimodal Coding, tareas agentic y la dimensión de Coding de solo texto, GLM-5V-Turbo obtiene resultados líderes con un tamaño menor.

	![](https://img-cdn.gateio.im/social/moments-d1c5841902-024843c1ac-8b7abd-badf29)

En benchmarks como la restauración de diseños, generación de código visual, recuperación y preguntas y respuestas multimodales, y exploración visual, GLM-5V-Turbo también logra resultados líderes; y en benchmarks como AndroidWorld y WebVoyager, que miden la capacidad real de manipulación del entorno GUI, muestra un desempeño destacado.

En la capacidad de Coding con solo texto, GLM-5V-Turbo mantiene un rendimiento estable en las tres pruebas clave del CC-Bench-V2: Backend, Frontend y Repo Exploration, lo que indica que tras incorporar capacidades de visión, las capacidades de programación y razonamiento de solo texto se mantienen al mismo nivel.

	![](https://img-cdn.gateio.im/social/moments-ad1d8e7241-eb753f4f45-8b7abd-badf29)

Según la introducción, que GLM-5V-Turbo logre una ventaja de rendimiento se debe a mejoras sistemáticas en cuatro aspectos de su arquitectura del modelo, métodos de entrenamiento, construcción de datos y cadena de herramientas:

Ante los desafíos de la industria, como la escasez de datos para Agentes y la dificultad de verificación, Zhipu construye un sistema multinivel que va desde la percepción a nivel de elementos hasta la predicción de acciones a nivel de secuencia. Con base en la generación a gran escala de datos de entrenamiento controlables y verificables en entornos sintéticos, además inyecta desde la fase de preentrenamiento capacidades meta agentic (por ejemplo, incorporar datos de GUI Agent PRM al preentrenamiento para reducir alucinaciones). Al mismo tiempo, explora optimización asimétrica y potencia capacidades más fuertes de Agente mediante tareas de evaluación multimodal.

Capacidad de programar directamente con diagramas

En cuanto a aplicaciones, Zhipu pone como ejemplos:

  1. Imagen como código

GLM-5V-Turbo es especialmente fuerte en escenarios centrales de programación visual.

Reproducción del frontend: enviando bocetos, diseños, capturas de pantalla o grabaciones de video de sitios de referencia, el modelo puede entender directamente la maquetación, la combinación de colores, los niveles de componentes y la lógica de interacción, generando un proyecto de frontend completo y ejecutable, y reproduciendo con precisión detalles visuales como la composición, la paleta de colores y las animaciones.

Exploración autónoma del GUI con reproducción: combinando frameworks como Claude Code, GLM-5V-Turbo puede explorar por cuenta propia el sitio objetivo gracias a su potente capacidad de GUI Agent. Recorre la estructura de las páginas, organiza las relaciones de salto entre páginas, recopila elementos visuales y detalles de interacción, y finalmente genera directamente el código para reproducir todo el sitio a partir de los resultados de la exploración registrada, logrando una mejora de “reproducción a partir de imágenes” a “reproducción mediante exploración GUI”.

Edición interactiva: admite añadir, eliminar y modificar módulos de páginas según las necesidades, modificar textos y estilos, ajustar estructuras de maquetación, y además incorporar funciones de interacción como retroalimentación de botones, conmutación de ventanas emergentes y sincronización de formularios, para lograr una edición iterativa visual.

  1. Ponerle ojos a la langosta

Los límites de la tarea de la langosta se han ampliado en gran medida; por ejemplo, puede navegar por sitios web y documentos, generar informes y PPT ricos en texto e imágenes, e incluso consultar e interpretar gráficos complejos como los de velas K.

AutoClaw ya lanzó la Skill de “analista de acciones”. Utilizando la capacidad visual nativa de GLM-5V-Turbo, la langosta puede entender directamente las tendencias de las líneas de precios, los gráficos de rangos de valoración y los de reportes de casas de valores, logrando la recopilación en paralelo de cuatro fuentes de datos en 60 segundos y generando reportes de investigación con texto e imágenes entrelazados. Actualmente, en AutoClaw se puede cambiar a GLM-5V-Turbo para probar hacer preguntas como: “Ayúdame a analizar el precio de XXX de hoy y genera un informe profesional de análisis”.

Además de la programación visual y las tareas de la langosta, GLM-5V-Turbo también ha logrado mejoras de rendimiento notables en escenarios agentic más amplios como búsqueda multimodal, investigación en profundidad, GUI Agent y la percepción Grounding, etc.

Para ello, se ofrece un conjunto de Skills oficiales, que cubren capacidades nativas como Captioning de imágenes, Grounding visual, escritura basada en documentos, filtrado de currículos, generación de prompts, etc., y también capacidades de reconocimiento de texto, reconocimiento de tablas, reconocimiento de escritura manuscrita, reconocimiento de fórmulas y capacidad de generación de imágenes a partir de texto, construidas a partir de GLM-OCR y GLM-Image, ayudando a que los usuarios liberen el potencial multimodal del modelo en más escenarios. Las Skills anteriores ya se han publicado en ClawHub; con una instalación de un clic se pueden probar todas las capacidades.

		Conversaciones Hot del ámbito financiero
	





	¿Combate de larga duración entre Irán y EE. UU.? ¿El mercado subestima el riesgo de recesión global?
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado