Selon Beating, Qwen3.7-Max a été officiellement publié. Une tâche d'optimisation du noyau entièrement autonome de 35 heures, avec 1158 appels d'outils, une amélioration de 10x grâce à l'implémentation de l'opérateur Triton M890 de Pingtouge. L'optimisation en cinq étapes comprend la partition du cache Split-K, le remplacement de cudaMalloc par des variables préallouées, l'utilisation de métadonnées tensor pour supprimer la synchronisation de la requête de préfixe, et le traitement parallèle de 4 jetons de requête dans un seul thread de bloc pour le chargement partagé. Testé avec un accélération de 10x, surpassant GLM5.1, Kimi K2.6, et DeepSeek V4 Pro, qui n'a atteint qu'une accélération de 3.3x sans appels d'outils en fin de processus. Tâches de déconnexion de l'entraînement / cadre / vérificateur, apprentissage par renforcement inter-cadres, forte généralisation sur MCP-Mark et SpreadSheetBench, proche de Claude-4.6-Opus-Max.

BlockBeatNews

2026-05-20 03:36:50

Création du résumé en cours

Selon le monitoring Beating, Alibaba Tongyi Qianwen a officiellement lancé la nouvelle génération de base d'intelligence artificielle phare Qwen3.7-Max.
Les données de performance publiées par le officiel montrent qu'en l'absence totale de documents d'architecture de puce et de données d'analyse de performance, le nouveau modèle a amélioré de 10,0 fois la performance de l'opérateur Triton du processeur domestique Pengcheng Zhenwu M890 lors d'une tâche d'optimisation du noyau entièrement autonome de 35 heures et impliquant 1158 appels d'outils.

Au cours de l'optimisation, le modèle a traversé cinq phases clés d'évolution.
Il a d'abord partitionné le cache KV en utilisant Split-K pour remplir les 36 cœurs SM en divisant le préfixe KV-cache selon la dimension des tokens ;
ensuite, il a remplacé le cudaMalloc synchronisé entre l'hôte et le dispositif par des variables PyTorch préallouées, et a complètement éliminé l'action de cudaMemcpy synchronisé lors de la requête de la longueur du préfixe en utilisant des métadonnées de tenseur, supprimant ainsi totalement les coûts de communication entre l'hôte et le dispositif ;
dans la dernière phase, le modèle a reconstruit l'opérateur pour traiter simultanément les 4 tokens de requête dans un seul bloc de threads, partageant le chargement pour répartir la charge de mémoire, achevant ainsi une reconstruction spécialisée au niveau architectural.

Les tests d'optimisation de l'opérateur ont montré que Qwen3.7-Max obtient un ratio d'accélération géométrique moyen de 10,0x, surpassant nettement GLM 5.1 (7,3x) et Kimi K2.6 (5,0x).
Quant à DeepSeek V4 Pro, il n'atteint que 3,3x et a terminé prématurément la tâche lors de la dernière phase en raison de l'absence de tout appel d'outil pendant cinq tours consécutifs.

Afin de maîtriser des stratégies de résolution universelles dans des environnements variables, Qwen3.7-Max a déconnecté la tâche, le cadre d'exécution et le vérificateur lors de l'entraînement, et a évité le surapprentissage par raccourci spécifique à un benchmark en utilisant un apprentissage par renforcement inter-cadres.
Sur les benchmarks d'intelligence artificielle universels MCP-Mark (60,8 points) et SpreadSheetBench (87,0 points), Qwen3.7-Max a démontré une forte capacité de généralisation, avec des performances globales proches de Claude-4.6-Opus-Max.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
TradfiTradingChallenge
184.7K Popularité
#
30YearTreasuryYieldBreaks5%
359.14K Popularité
#
IsraelStrikesIranBTCPlunges
48.17K Popularité
#
#DailyPolymarketHotspot
1M Popularité
#
RWAMarketCapExceeds65Billion
8.75M Popularité

Épinglé

Qwen3.7-Max officiellement lancé : 35 heures pour écrire du code de manière autonome 1158 fois, et développer un opérateur de calcul 10 fois plus rapide sur une puce nationale.

Sujets populaires

TradfiTradingChallenge

30YearTreasuryYieldBreaks5%

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

RWAMarketCapExceeds65Billion

Épinglé