Qwen3.7-Max chính thức phát hành: 35 giờ tự động viết mã 1158 lần, trên chip nội địa luyện ra toán tử tăng tốc 10 lần

robot
Đang tạo bản tóm tắt
AIMPACT News, May 20 (UTC+8), according to Beating monitoring, Alibaba's Tongyi Qianwen officially released the next-generation intelligent flagship base Qwen3.7-Max. Official real-world data shows that without any chip architecture documentation and performance analysis data, the new model successfully improved the performance of the Triton operator of the domestic Pingtouge Zhenwu M890 processor by 10.0 times in a fully autonomous kernel optimization task lasting 35 hours and spanning 1158 tool calls. During the optimization process, the model went through five core evolutionary stages. It first used Split-K partitioning to divide the prefix KV-cache along the token dimension to fill 36 SM cores; then replaced the synchronous cudaMalloc between host and device with pre-allocated PyTorch variables, and completely eliminated the synchronous cudaMemcpy action when querying the prefix length by using tensor metadata, thus fully removing the communication overhead between host and device; in the final stage, the model reconstructed the operator to process all 4 query tokens simultaneously in a single thread block, sharing the load to amortize memory access overhead, completing a key architectural-level specialized reconstruction. The operator optimization actual test shows that Qwen3.7-Max achieved a geometric mean speedup of 10.0x, significantly surpassing GLM 5.1 (7.3x) and Kimi K2.6 (5.0x). Meanwhile, DeepSeek V4 Pro only achieved 3.3x and proactively ended the task early in the latter half due to five consecutive rounds without any tool calls. In order to master general problem-solving strategies in changing environments, Qwen3.7-Max decouples tasks, runtime frameworks, and validators during training, and uses cross-framework reinforcement learning training to avoid shortcut overfitting on specific benchmarks. On the general agent benchmarks MCP-Mark (60.8 points) and SpreadSheetBench (87.0 points), Qwen3.7-Max demonstrates extremely strong generalization, with comprehensive performance already close to Claude-4.6-Opus-Max. (Source: BlockBeats)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim