Informe técnico de Zhipu GLM-5V-Turbo: Design2Code supera a Claude Opus4.6, escribe código directamente desde la captura de pantalla

robot
Generación de resúmenes en curso

Mensaje de CoinWorld, Zhipu AI ha publicado el informe técnico GLM-5V-Turbo, este modelo fue lanzado a principios de abril en la API z.ai y OpenRouter.
Este informe complementa la metodología, el modelo no es de código abierto.
GLM-5V-Turbo es el primer modelo base multimodal de programación de Zhipu, soporta un contexto de aproximadamente 200k, y puede integrarse con marcos de agentes como Claude Code y OpenClaw.
Desde la fase de preentrenamiento, este modelo incorpora percepción visual en todo el proceso de razonamiento, planificación, llamadas a herramientas y ejecución.
La arquitectura del modelo tiene tres diseños clave: el nuevo codificador visual CogVit, que utiliza SigLip2 y DinoV3 para preentrenamiento por distilación con doble maestro, y aprendizaje contrastivo con 8 mil millones de datos bilingües chino-inglés en forma de texto e imagen para alinear la predicción multimodal de múltiples tokens (MMTP),
sustituyendo la transmisión directa de incrustaciones visuales por un token especial compartido y aprendible, reduciendo la complejidad de comunicación entre etapas del pipeline, y entrenando de manera más estable mediante aprendizaje reforzado conjunto que cubre percepción, razonamiento y ejecución de agentes en tres niveles.
Los resultados específicos muestran que Design2Code alcanza 94.8, superando a Claude Opus 4.6.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado