По данным Beating, официально выпущена Qwen3.7-Max. Полностью автономная внутренняя оптимизация ядра за 35 часов, с 1158 вызовами инструментов, реализованная на чипе Пинтуго M890 Triton, достигла 10-кратного повышения. Пятиэтапная оптимизация включает разделение кэша Split-K, замену cudaMalloc предраспределенными переменными, использование метаданных тензора для устранения синхронизации префиксных запросов, параллельную обработку 4 запросных токенов внутри одного потока для совместной загрузки. Фактическое ускорение составило 10x, превосходя GLM5.1, Kimi K2.6, DeepSeek V4 Pro всего на 3.3x, при этом без дальнейших вызовов инструментов. Обучение с раздельной задачей/фреймворком/валидатором, усиленное обучение между фреймворками, высокая обобщаемость на MCP-Mark, SpreadSheetBench, приближается к Claude-4.6-Opus-Max.

BlockBeatNews

2026-05-20 03:36:50

Генерация тезисов в процессе

По данным мониторинга Beating, официально выпущен новый флагманский базовый интеллект Qwen3.7-Max от Alibaba Tongyi Qianwen. Официальные практические данные показывают, что при полном отсутствии документации по архитектуре чипа и данных о производительности новая модель в полностью автономной задаче оптимизации ядра, длительностью 35 часов и включающей 1158 вызовов инструментов, принудительно повысила производительность оператора Triton на отечественном процессоре Pengpai Zhenwu M890 в 10,0 раз.

В процессе оптимизации модель прошла через пять основных этапов эволюции. Сначала она разделила префиксный KV-кэш по размеру токена с помощью разделения Split-K, чтобы заполнить 36 ядер SM; затем заменили синхронный cudaMalloc между хостом и устройством на предварительно выделенные переменные PyTorch, и полностью устранили операции синхронного cudaMemcpy при запросе длины префикса, используя метаданные тензора, что полностью исключило коммуникационные расходы между хостом и устройством; на последнем этапе модель перестроила оператор для одновременной обработки всех 4 токенов запроса в одном блоке потоков, разделяя загрузку для распределения затрат на доступ к памяти, завершив ключевую архитектурную оптимизацию.

Практические результаты оптимизации операторов показывают, что Qwen3.7-Max достигла 10,0-кратного среднего ускорения, значительно превосходя GLM 5.1 (7,3x) и Kimi K2.6 (5,0x). А DeepSeek V4 Pro показала лишь 3,3-кратное ускорение и в последней половине задачи завершила её досрочно из-за отсутствия вызовов инструментов в течение пяти последовательных раундов.

Чтобы освоить универсальные стратегии решения в изменяющихся условиях, Qwen3.7-Max в процессе обучения отделила задачи, рамки выполнения и валидаторы, а также использовала межрамочные обучение с подкреплением, чтобы избежать переобучения на конкретных бенчмарках. На универсальных интеллектуальных бенчмарках MCP-Mark (60,8 баллов) и SpreadSheetBench (87,0 баллов) Qwen3.7-Max продемонстрировала высокую обобщающую способность, а совокупная производительность уже приближается к Claude-4.6-Opus-Max.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
TradfiTradingChallenge
181.56K Популярность
#
30YearTreasuryYieldBreaks5%
357.29K Популярность
#
IsraelStrikesIranBTCPlunges
48.17K Популярность
#
#DailyPolymarketHotspot
999.99K Популярность
#
RWAMarketCapExceeds65Billion
8.75M Популярность

Закреплено

Карта сайта

Qwen3.7-Max официально выпущен: 35 часов самостоятельного написания кода 1158 раз, создан 10-кратный ускоряющий оператор на отечественных чипах

Популярные темы

TradfiTradingChallenge

30YearTreasuryYieldBreaks5%

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

RWAMarketCapExceeds65Billion

Закреплено