10,000 USDT 悬赏,寻找Gate广场跟单金牌星探!🕵️♀️
挖掘顶级带单员,赢取高额跟单体验金!
立即参与:https://www.gate.com/campaigns/4624
🎁 三大活动,奖金叠满:
1️⃣ 慧眼识英:发帖推荐带单员,分享跟单体验,抽 100 位送 30 USDT!
2️⃣ 强力应援:晒出你的跟单截图,为大神打 Call,抽 120 位送 50 USDT!
3️⃣ 社交达人:同步至 X/Twitter,凭流量赢取 100 USDT!
📍 标签: #跟单金牌星探 #GateCopyTrading
⏰ 限时: 4/22 16:00 - 5/10 16:00 (UTC+8)
详情:https://www.gate.com/announcements/article/50848
智谱GLM-5V-Turbo技术报告:Design2Code超Claude Opus4.6,看截图直接写代码
据动察 Beating 监测,智谱 AI 发布 GLM-5V-Turbo 技术报告。模型 4 月初已上线 Z.ai API 和 OpenRouter,本次是补发的方法论披露,模型未开源。GLM-5V-Turbo 是智谱首个多模态编程基座模型,支持 200K 上下文,可接入 Claude Code 和 OpenClaw 等 agent 框架。与多数把视觉当语言模型附件的做法不同,该模型从预训练阶段就将视觉感知融入推理、规划、工具调用和执行的全流程。
模型架构有三个关键设计。一是新视觉编码器 CogViT,用 SigLIP2 和 DINOv3 做双教师蒸馏预训练,再用 80 亿中英双语图文语料做对比学习对齐。二是多模态多 token 预测(MMTP),用一个共享的可学习 <|image|> 特殊 token 替代直接传递视觉嵌入,降低跨 pipeline 阶段的通信复杂度,训练也更稳定。三是 30 余项任务的联合强化学习,覆盖感知、推理和 agent 执行三个层级。
RL 阶段的提升分布广泛:2D 图像定位 +4.8%、视频理解 +5.6%、3D 定位 +7.7%、OCR +4.2%、图表理解 +7.7%、GUI agent(OSWorld)+4.9%、多模态搜索工具调用 +3.5%。团队在论文中指出,多任务 RL 不同于 SFT 常见的跨域干扰,各能力可以稳定共同提升,甚至一个领域学到的推理模式会迁移到其他领域。
具体跑分:Design2Code 94.8,超过 Claude Opus 4.6;OSWorld 62.3、AndroidWorld 75.7;多模态搜索 MMSearch 72.9、BrowseComp-VL 51.9;纯文本编程在 CC-Bench-V2 的后端(22.8)、前端(68.4)和代码仓库探索(72.2)三项上反超其纯文本底座 GLM-5-Turbo。MMSearch-Plus 得 30.0,比上一代 GLM-4.6V 提升近 8 倍;自建的视觉深度搜索基准 ImageMining 得 30.7。