智谱 publica el modelo base multimodal nativo Coding GLM-5V-Turbo, con una adaptación profunda a OpenClaw

robot
Generación de resúmenes en curso

Sina Tech News, 2 de abril por la mañana: Zhipu lanzó el primer modelo nativo multimodal de base de codificación GLM-5V-Turbo, anunciando que este modelo integra profundamente capacidades visuales y de programación, y puede procesar de forma nativa información multimodal como texto, imágenes y videos, además de ser experto en programación, planificación a largo plazo y ejecución de operaciones complejas.

Según se informa, en los estándares clave como codificación multimodal y agentes, el GLM-5V-Turbo ha logrado un rendimiento superior con un tamaño más pequeño, introduciendo capacidades visuales mientras mantiene un nivel equivalente en programación y razonamiento solo con texto. Además, se adapta profundamente a escenarios de Claude Code y langosta, permitiendo que la langosta OpenClaw tenga una verdadera capacidad visual y pueda entender la información en pantalla.

A diferencia de los modelos tradicionales de codificación solo con texto, el GLM-5V-Turbo puede entender directamente información visual como diseños, capturas de pantalla de páginas web, gráficos de velas y generar código ejecutable, logrando una experiencia de programación AI de “lo que ves es lo que obtienes”. Actualmente, este modelo ya está disponible a través de la plataforma MaaS de Zhipu. (Wen Meng)

Información masiva, interpretación precisa, todo en la APP Sina Finance

Editor: Yang Ci

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado