Informe técnico de Zhipu GLM-5V-Turbo: Design2Code supera a Claude Opus4.6, escribe código directamente desde la captura de pantalla

robot
Generación de resúmenes en curso

Según el monitoreo de Beating, Zhipu AI publicó el informe técnico de GLM-5V-Turbo. El modelo ya está en línea desde principios de abril en Z.ai API y OpenRouter, esta vez se trata de una divulgación metodológica complementaria, el modelo no ha sido de código abierto. GLM-5V-Turbo es el primer modelo base multimodal de programación de Zhipu, soporta un contexto de aproximadamente 200K, y puede integrarse en marcos de agentes como Claude Code y OpenClaw. A diferencia de la mayoría de las prácticas que consideran la visión como un complemento del modelo de lenguaje, este modelo incorpora la percepción visual en todo el proceso desde el preentrenamiento hasta el razonamiento, planificación, llamadas a herramientas y ejecución.

La arquitectura del modelo tiene tres diseños clave. Primero, el nuevo codificador visual CogViT, que utiliza SigLIP2 y DINOv3 para un preentrenamiento por destilación doble con profesores, y luego se alinea mediante aprendizaje contrastivo con 8 mil millones de datos multilingües chino-inglés con texto e imágenes. Segundo, la predicción multimodal de múltiples tokens (MMTP), que reemplaza la transmisión directa de incrustaciones visuales con un token especial <|image|> compartido y aprendible, reduciendo la complejidad de comunicación entre etapas del pipeline y haciendo el entrenamiento más estable. Tercero, el aprendizaje reforzado conjunto en más de 30 tareas, que abarca los niveles de percepción, razonamiento y ejecución de agentes.

La mejora en la fase de RL se distribuye ampliamente: localización de imágenes 2D +4.8%, comprensión de videos +5.6%, localización 3D +7.7%, OCR +4.2%, comprensión de gráficos +7.7%, agente GUI (OSWorld) +4.9%, llamadas a herramientas de búsqueda multimodal +3.5%. El equipo señala en su artículo que el RL multitarea difiere del entrenamiento supervisado fino (SFT) en la interferencia entre dominios, ya que cada capacidad puede mejorar de manera estable y conjunta, e incluso los patrones de razonamiento aprendidos en un campo pueden transferirse a otros.

Puntuaciones específicas: Design2Code 94.8, superando a Claude Opus en 4.6; OSWorld 62.3, AndroidWorld 75.7; búsqueda multimodal MMSearch 72.9, BrowseComp-VL 51.9; programación en texto puro en las tres categorías de CC-Bench-V2 (backend 22.8, frontend 68.4 y exploración de repositorios de código 72.2) supera a su base de texto puro GLM-5-Turbo. MMSearch-Plus obtuvo 30.0, casi 8 veces más que la generación anterior GLM-4.6V; la base de búsqueda profunda visual autoconstruida ImageMining alcanzó 30.7.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado