Згідно з дослідженнями Beating, офіційно випущено Qwen3.7-Max. Завдання повної автономної оптимізації ядра, що тривало 35 годин і включало понад 1158 викликів інструментів, реалізовано на M890 Triton операторі від PingTouGe з 10-кратним підвищенням продуктивності. П’ятиступеневі оптимізації включають розділення кешу Split-K, заміну cudaMalloc заздалегідь виділеними змінними, видалення префіксних запитів синхронізації за допомогою метаданих tensor, а також паралельну обробку 4 запитів токенів у одному потоці для спільного завантаження. Фактичне прискорення становить 10x, що перевищує GLM5.1, Kimi K2.6, а DeepSeek V4 Pro — лише 3.3x і завершився без подальших викликів інструментів. Роздільне навчання задач/фреймворків/валідаційних інструментів, підсилене навчання між фреймворками, на MCP-Mark і SpreadSheetBench демонструє сильну узагальнюваність, приблизно до Claude-4.6-Opus-Max.

BlockBeatNews

2026-05-20 03:36:50

Генерація анотацій у процесі

Згідно з моніторингом Beating, офіційний реліз нової генерації інтелектуального базового фреймворку Qwen3.7-Max від Alibaba Tongyi Qianwen. Офіційні дані показують, що без архітектурної документації чіпів та аналізу продуктивності, нова модель у повністю автономному ядерному оптимізаційному завданні тривалістю 35 годин і з 1158 викликами інструментів, примусово підвищила продуктивність оператора Triton процесора китайського виробництва Pengcheng True Warrior M890 у 10.0 разів.

Під час оптимізації модель пройшла п’ять основних етапів розвитку. Спочатку за допомогою розподілу Split-K вона розділила префіксний KV-кеш по вимірюванню токенів для заповнення 36 ядер SM; потім замінила синхронізацію між хостом і пристроєм cudaMalloc на попередньо виділені змінні PyTorch, і за допомогою метаданих тензорів повністю усунула синхронізаційні дії cudaMemcpy при запиті довжини префікса, що повністю зняло комунікаційні витрати між хостом і пристроєм; на останньому етапі модель реконструювала оператори для одночасної обробки всіх 4 токенів запиту у одному блоці потоків, спільне завантаження для розподілу навангу пам’яті, завершивши ключову архітектурну спеціалізацію.

Практичні результати оптимізації показали, що Qwen3.7-Max досягла середнього геометричного прискорення у 10.0 разів, значно перевищуючи GLM 5.1 (7.3x) та Kimi K2.6 (5.0x). А DeepSeek V4 Pro показала лише 3.3x і у другій половині через п’ять послідовних раундів без викликів інструментів завчасно завершила завдання.

Щоб у змінних умовах осягнути універсальні стратегії розв’язання задач, Qwen3.7-Max під час тренування роз’єднала завдання, рамки виконання та валідатори, а за допомогою міжфреймового навчання з підкріпленням уникнула надмірної підгонки під конкретні бенчмарки. На універсальних тестах інтелектуального агента MCP-Mark (60.8 балів) та SpreadSheetBench (87.0 балів) Qwen3.7-Max продемонструвала високий рівень узагальнення, а її загальна продуктивність вже наближається до Claude-4.6-Opus-Max.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
TradfiTradingChallenge
184.7K Популярність
#
30YearTreasuryYieldBreaks5%
359.14K Популярність
#
IsraelStrikesIranBTCPlunges
48.17K Популярність
#
#DailyPolymarketHotspot
1M Популярність
#
RWAMarketCapExceeds65Billion
8.75M Популярність

Закріплено

карта сайту

Qwen3.7-Max офіційно випущений: 35 годин самостійного написання коду 1158 разів, створив 10-кратний прискорювач операторів на вітчизняних чипах

Популярні теми

TradfiTradingChallenge

30YearTreasuryYieldBreaks5%

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

RWAMarketCapExceeds65Billion

Закріплено