Zhipu AI publica el informe técnico de GLM-5V-Turbo, la primera base de programación multimodal, con 200K de contexto, compatible con ClaudeCode/OpenClaw, no de código abierto. Tres diseños centrales: codificación visual CogViT, token compartido MMTP<|image|>, aprendizaje reforzado conjunto para más de 30 tareas. Las mejoras en múltiples áreas de RL son notables, Design2Code 94.8, MMSearch-Plus 30.0, ImageMining 30.7.

BlockBeatNews

2026-05-08 02:53:48

Generación de resúmenes en curso

Según el monitoreo de Beating, Zhipu AI publicó el informe técnico de GLM-5V-Turbo. El modelo ya está en línea desde principios de abril en Z.ai API y OpenRouter, esta vez se trata de una divulgación metodológica complementaria, el modelo no ha sido de código abierto. GLM-5V-Turbo es el primer modelo base multimodal de programación de Zhipu, soporta un contexto de aproximadamente 200K, y puede integrarse en marcos de agentes como Claude Code y OpenClaw. A diferencia de la mayoría de las prácticas que consideran la visión como un complemento del modelo de lenguaje, este modelo incorpora la percepción visual en todo el proceso desde el preentrenamiento hasta el razonamiento, planificación, llamadas a herramientas y ejecución.

La arquitectura del modelo tiene tres diseños clave. Primero, el nuevo codificador visual CogViT, que utiliza SigLIP2 y DINOv3 para un preentrenamiento por destilación doble con profesores, y luego se alinea mediante aprendizaje contrastivo con 8 mil millones de datos multilingües chino-inglés con texto e imágenes. Segundo, la predicción multimodal de múltiples tokens (MMTP), que reemplaza la transmisión directa de incrustaciones visuales con un token especial <|image|> compartido y aprendible, reduciendo la complejidad de comunicación entre etapas del pipeline y haciendo el entrenamiento más estable. Tercero, el aprendizaje reforzado conjunto en más de 30 tareas, que abarca los niveles de percepción, razonamiento y ejecución de agentes.

La mejora en la fase de RL se distribuye ampliamente: localización de imágenes 2D +4.8%, comprensión de videos +5.6%, localización 3D +7.7%, OCR +4.2%, comprensión de gráficos +7.7%, agente GUI (OSWorld) +4.9%, llamadas a herramientas de búsqueda multimodal +3.5%. El equipo señala en su artículo que el RL multitarea difiere del entrenamiento supervisado fino (SFT) en la interferencia entre dominios, ya que cada capacidad puede mejorar de manera estable y conjunta, e incluso los patrones de razonamiento aprendidos en un campo pueden transferirse a otros.

Puntuaciones específicas: Design2Code 94.8, superando a Claude Opus en 4.6; OSWorld 62.3, AndroidWorld 75.7; búsqueda multimodal MMSearch 72.9, BrowseComp-VL 51.9; programación en texto puro en las tres categorías de CC-Bench-V2 (backend 22.8, frontend 68.4 y exploración de repositorios de código 72.2) supera a su base de texto puro GLM-5-Turbo. MMSearch-Plus obtuvo 30.0, casi 8 veces más que la generación anterior GLM-4.6V; la base de búsqueda profunda visual autoconstruida ImageMining alcanzó 30.7.

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
GateSquareMayTradingShare
750K Popularidad
#
BitcoinFallsBelow80K
95.02M Popularidad
#
IsraelStrikesIranBTCPlunges
44.29K Popularidad
#
IranUSConflictEscalates
87.99K Popularidad
#
OilPriceRollerCoaster
305.76K Popularidad

Anclado

Informe técnico de Zhipu GLM-5V-Turbo: Design2Code supera a Claude Opus4.6, escribe código directamente desde la captura de pantalla

Temas de actualidad

GateSquareMayTradingShare

BitcoinFallsBelow80K

IsraelStrikesIranBTCPlunges

IranUSConflictEscalates

OilPriceRollerCoaster

Anclado