AIMPACT сообщение, 20 мая (UTC+8), по данным мониторинга Beating, Alibaba Tongyi Qianwen официально выпустила новый флагманский базис агента Qwen3.7-Max. Официальные данные боевых испытаний показывают, что при полном отсутствии документации по архитектуре чипа и данных анализа производительности новая модель в ходе задачи полностью автономной оптимизации ядра, длившейся 35 часов и включавшей 1158 вызовов инструментов, принудительно повысила производительность оператора Triton для китайского процессора Pingtouge Zhenwu M890 в 10,0 раз. В процессе оптимизации модель прошла пять ключевых этапов эволюции. Сначала с помощью разбиения Split-K она разделила префиксный KV-кеш по измерению токенов, чтобы заполнить все 36 ядер SM; затем заменила синхронизируемый cudaMalloc между хостом и устройством на предварительно выделенные переменные PyTorch и, используя метаданные тензора, полностью устранила синхронное действие cudaMemcpy при запросе длины префикса, полностью удалив накладные расходы на связь между хостом и устройством; на последнем этапе модель реконструировала оператор, чтобы в одном потоковом блоке одновременно обрабатывать все 4 токена запроса, совместно загружая данные для распределения затрат на доступ к памяти, завершив ключевую архитектурную специализированную реконструкцию. Фактические измерения оптимизации оператора показали, что Qwen3.7-Max достиг среднего геометрического ускорения в 10,0x, значительно превзойдя GLM 5.1 (7,3x) и Kimi K2.6 (5,0x). В то время как DeepSeek V4 Pro показал лишь 3,3x и на второй половине пути досрочно завершил задачу из-за отсутствия каких-либо вызовов инструментов в течение пяти последовательных раундов. Чтобы освоить универсальные стратегии решения задач в изменчивой среде, Qwen3.7-Max в обучении разделил задачу, среду выполнения и верификатор, а с помощью кросс-фреймворкового обучения с подкреплением избежал переобучения на короткие пути к конкретным бенчмаркам. На универсальных бенчмарках агентов MCP-Mark (60,8 балла) и SpreadSheetBench (87,0 балла) Qwen3.7-Max продемонстрировал чрезвычайно сильную обобщаемость, а его общая производительность уже вплотную приблизилась к Claude-4.6-Opus-Max. (Источник: BlockBeats)

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
SKHynixTopsKOSPIByMarketCap
1,47M Популярность
#
BTCProbes60KKeySupportLevel
329,04M Популярность
#
IsraelStrikesIranBTCPlunges
62,7K Популярность
#
WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷
288,81K Популярность
#
TradFiCFDGoldMaster
2,18M Популярность

Закреплено

Карта сайта

Qwen3.7-Max официально выпущен: 35 часов самостоятельного написания кода 1158 раз, на отечественных чипах создан 10-кратный оператор ускорения.

Популярные темы

SKHynixTopsKOSPIByMarketCap

BTCProbes60KKeySupportLevel

IsraelStrikesIranBTCPlunges

WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷

TradFiCFDGoldMaster

Закреплено