据动察 Beating 监测，智谱 AI 发布 GLM-5V-Turbo 技术报告。模型 4 月初已上线 Z.ai API 和 OpenRouter，本次是补发的方法论披露，模型未开源。GLM-5V-Turbo 是智谱首个多模态编程基座模型，支持 200K 上下文，可接入 Claude Code 和 OpenClaw 等 agent 框架。与多数把视觉当语言模型附件的做法不同，该模型从预训练阶段就将视觉感知融入推理、规划、工具调用和执行的全流程。

模型架构有三个关键设计。一是新视觉编码器 CogViT，用 SigLIP2 和 DINOv3 做双教师蒸馏预训练，再用 80 亿中英双语图文语料做对比学习对齐。二是多模态多 token 预测（MMTP），用一个共享的可学习 <|image|> 特殊 token 替代直接传递视觉嵌入，降低跨 pipeline 阶段的通信复杂度，训练也更稳定。三是 30 余项任务的联合强化学习，覆盖感知、推理和 agent 执行三个层级。

RL 阶段的提升分布广泛：2D 图像定位 +4.8%、视频理解 +5.6%、3D 定位 +7.7%、OCR +4.2%、图表理解 +7.7%、GUI agent（OSWorld）+4.9%、多模态搜索工具调用 +3.5%。团队在论文中指出，多任务 RL 不同于 SFT 常见的跨域干扰，各能力可以稳定共同提升，甚至一个领域学到的推理模式会迁移到其他领域。

具体跑分：Design2Code 94.8，超过 Claude Opus 4.6；OSWorld 62.3、AndroidWorld 75.7；多模态搜索 MMSearch 72.9、BrowseComp-VL 51.9；纯文本编程在 CC-Bench-V2 的后端（22.8）、前端（68.4）和代码仓库探索（72.2）三项上反超其纯文本底座 GLM-5-Turbo。MMSearch-Plus 得 30.0，比上一代 GLM-4.6V 提升近 8 倍；自建的视觉深度搜索基准 ImageMining 得 30.7。

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
Gate广场五月交易分享
72.03万热度
#
比特币跌破8万美元
9501.83万热度
#
美伊冲突再升级
8.32万热度
#
油价过山车
102.37万热度
#
Polymarket每日热点
85.21万热度

智谱GLM-5V-Turbo技术报告：Design2Code超Claude Opus4.6，看截图直接写代码

热门话题

Gate广场五月交易分享

比特币跌破8万美元

美伊冲突再升级

油价过山车

Polymarket每日热点

置顶