Le 16 avril, DeepGEMM a publié la plus grande mise à jour de l'histoire, étendant la bibliothèque d'opérateurs complète pour l'inférence de grands modèles, prenant en charge les opérations matricielles FP8/FP4/BF16 ainsi que des opérateurs spécialisés tels que MoE et l'attention. L'élément central est Mega MoE, qui fusionne les cinq étapes de l'inférence en un seul noyau, utilisant NVLink et Tensor Core en parallèle, réduisant considérablement l'attente et le transfert de données ; Actuellement, il ne supporte que FP8×FP4, nécessite PyTorch 2.9+ et les données de performance seront publiées ultérieurement. La mise à jour introduit également la multiplication matricielle FP8×FP4, la notation d'attention FP4, PDL et des optimisations plus rapides de JIT, ainsi que l'adaptation à la disposition des données MoE de DeepEPv2.

MeNews

2026-05-14 18:50:03

Création du résumé en cours

ME News Actualités, le 16 avril (UTC+8), selon le monitoring de Dongcha Beating, DeepSeek a publié aujourd’hui la plus grande mise à jour depuis le lancement open source de DeepGEMM. La bibliothèque d’opérateurs GPU, publiée lors de la « Semaine d’ouverture » en février de l’année dernière, qui se limitait initialement à la multiplication de matrices FP8, a été étendue pour couvrir une bibliothèque complète d’opérateurs essentiels à l’inférence de grands modèles, prenant en charge diverses précisions telles que FP8, FP4, BF16 pour les opérations matricielles, ainsi que des opérateurs spécialisés pour MoE et le scoring d’attention. La nouveauté principale est Mega MoE. L’architecture MoE (experts mixtes) est la base de modèles comme DeepSeek V3, nécessitant lors de l’inférence l’exécution séquentielle de cinq étapes : distribution EP, transformation linéaire de la première couche, activation SwiGLU, transformation linéaire de la seconde couche, fusion EP. La méthode traditionnelle consiste à appeler cinq kernels indépendants successivement, chaque appel devant attendre la fin du précédent, avec des transferts de données en mémoire vidéo. Mega MoE fusionne ces cinq étapes en un seul kernel, permettant à la communication NVLink et au calcul Tensor Core de se faire simultanément, éliminant ainsi les attentes intermédiaires et les transferts de données. Actuellement, seul le combo FP8×FP4 est supporté, nécessitant PyTorch 2.9 ou supérieur. L’équipe indique qu’elle continue d’optimiser cette fonctionnalité, et les données de performance seront publiées ultérieurement. Parmi les autres nouveautés figurent : la multiplication matricielle en précision mixte FP8×FP4, un opérateur de scoring d’attention FP4 supportant des MTP plus grands (Indexer), PDL (démarrage de dépendance programmée, une optimisation de la planification GPU pour réduire la latence de lancement des kernels), une vitesse de compilation JIT plus rapide, ainsi que plusieurs optimisations pour les opérations matricielles MoE. Cette mise à jour a également adapté la disposition des données MoE pour DeepEPv2. La description du PR précise : « Cette publication concerne uniquement le développement de DeepGEMM, et n’est pas liée à la publication de modèles internes. » (Source : BlockBeats)

DEEPSEEK-1,91%

MEGA3,16%

KERNEL2,92%

ME3,41%

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
GateSquareMayTradingShare
1.67M Popularité
#
IsraelStrikesIranBTCPlunges
46.68K Popularité
#
#DailyPolymarketHotspot
937.19K Popularité
#
JaneStreetReducesBitcoinETFHoldings
105.29K Popularité
#
TrumpVisitsChina
63.39K Popularité

Épinglé

DeepSeek bibliothèque d'opérateurs GPU open source DeepGEMM mise à jour majeure, ajout de Mega MoE fusionnant les cinq étapes de calcul MoE en un seul kernel

Sujets populaires

GateSquareMayTradingShare

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

JaneStreetReducesBitcoinETFHoldings

TrumpVisitsChina

Épinglé