📢 Gate 广场 TradFi 交易分享挑战上线!
晒单瓜分 $30,000 奖池,新人首帖 100% 中奖!
📌 参与方式:
带 #TradFi交易分享挑战 发帖,满足以下任一即可:
🔹 带今日指定 TradFi 币种标签发帖交流。
🔹 完成单笔大于 $10U 的 TradFi CFD 交易并挂载交易卡片。
🏷️ 今日指定标签:USDJPY、AUDUSD、US30、TSLA、JPN225
🎁 宠粉福利:
1️⃣ 卡片分享奖: 抽 50 人,每人送 $100 仓位体验券!
2️⃣ 发帖榜单奖: 冲排行榜,赢 WCTC 限定 T 恤!
3️⃣ 新粉见面礼: 新人首次发帖,100% 领 $10 体验券!
详情:https://www.gate.com/announcements/article/51221
Qwen3.7-Max正式发布:35小时自主写代码1158次,在国产芯片上炼出10倍加速算子
在优化过程中,模型历经了五个核心演进阶段。它首先通过 Split-K 分区将前缀 KV-cache 沿 token 维度划分以填满 36 个 SM 核心;随后将主机与设备间同步的 cudaMalloc 替换为预分配的 PyTorch 变量,并通过使用 tensor 元数据完全抹去了查询前缀长度时的同步 cudaMemcpy 动作,彻底移除了主机与设备间的通信开销;在最后阶段,模型重构算子以在单个线程块中同时处理全部 4 个 query token,共享加载以分摊访存开销,完成了关键的架构级特化重构。
算子优化实测显示,Qwen3.7-Max 取得 10.0x 几何平均加速比,显著超越 GLM 5.1(7.3x)与 Kimi K2.6(5.0x)。而 DeepSeek V4 Pro 仅为 3.3x 且在后半程因连续五轮未发出任何工具调用而提前主动结束任务。
为了在多变环境里掌握通用的解题策略,Qwen3.7-Max 在训练中将任务、运行框架与验证器进行了解耦,并通过跨框架强化学习训练避免了针对特定基准的捷径过拟合。在通用的智能体基准 MCP-Mark(60.8 分)与 SpreadSheetBench(87.0 分)上,Qwen3.7-Max 展现了极强的泛化性,综合性能表现已紧逼 Claude-4.6-Opus-Max。