La noticia de CoinWorld informa que Zhipu AI publicó el informe técnico de GLM-5V-Turbo, lanzado en abril con la API z.ai y OpenRouter, el informe complementa la metodología, pero el modelo no es de código abierto. Este marco de programación multimodal admite un contexto de aproximadamente 200k, puede integrarse con frameworks como Claude Code y OpenClaw, y desde su preentrenamiento incorpora percepción visual en razonamiento, planificación, llamadas y ejecución de herramientas. Los puntos clave de la arquitectura son el codificador visual CogVit, la destilación doble de profesores SigLip2/DinoV3, y el MMTP con alineación de imágenes y textos en chino e inglés de 8 mil millones de parámetros, usando tokens compartidos y aprendibles en lugar de incrustaciones visuales, reduciendo la comunicación entre etapas y mejorando la estabilidad, con aprendizaje reforzado conjunto que cubre percepción, razonamiento y ejecución. Design2Code obtuvo una puntuación de 94.8, superando a Claude Opus4.6.

CoinNetwork

2026-05-08 02:31:34

Generación de resúmenes en curso

Mensaje de CoinWorld, Zhipu AI ha publicado el informe técnico GLM-5V-Turbo, este modelo fue lanzado a principios de abril en la API z.ai y OpenRouter.
Este informe complementa la metodología, el modelo no es de código abierto.
GLM-5V-Turbo es el primer modelo base multimodal de programación de Zhipu, soporta un contexto de aproximadamente 200k, y puede integrarse con marcos de agentes como Claude Code y OpenClaw.
Desde la fase de preentrenamiento, este modelo incorpora percepción visual en todo el proceso de razonamiento, planificación, llamadas a herramientas y ejecución.
La arquitectura del modelo tiene tres diseños clave: el nuevo codificador visual CogVit, que utiliza SigLip2 y DinoV3 para preentrenamiento por distilación con doble maestro, y aprendizaje contrastivo con 8 mil millones de datos bilingües chino-inglés en forma de texto e imagen para alinear la predicción multimodal de múltiples tokens (MMTP),
sustituyendo la transmisión directa de incrustaciones visuales por un token especial compartido y aprendible, reduciendo la complejidad de comunicación entre etapas del pipeline, y entrenando de manera más estable mediante aprendizaje reforzado conjunto que cubre percepción, razonamiento y ejecución de agentes en tres niveles.
Los resultados específicos muestran que Design2Code alcanza 94.8, superando a Claude Opus 4.6.

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
GateSquareMayTradingShare
736.97K Popularidad
#
BitcoinFallsBelow80K
95.02M Popularidad
#
IsraelStrikesIranBTCPlunges
44.27K Popularidad
#
IranUSConflictEscalates
86.16K Popularidad
#
OilPriceRollerCoaster
305.4K Popularidad

Anclado

Informe técnico de Zhipu GLM-5V-Turbo: Design2Code supera a Claude Opus4.6, escribe código directamente desde la captura de pantalla

Temas de actualidad

GateSquareMayTradingShare

BitcoinFallsBelow80K

IsraelStrikesIranBTCPlunges

IranUSConflictEscalates

OilPriceRollerCoaster

Anclado