DeepSeek bibliothèque d'opérateurs GPU open source DeepGEMM mise à jour majeure, ajout de Mega MoE fusionnant les cinq étapes de calcul MoE en un seul kernel

robot
Création du résumé en cours

ME News Actualités, le 16 avril (UTC+8), selon le monitoring de Dongcha Beating, DeepSeek a publié aujourd’hui la plus grande mise à jour depuis le lancement open source de DeepGEMM. La bibliothèque d’opérateurs GPU, publiée lors de la « Semaine d’ouverture » en février de l’année dernière, qui se limitait initialement à la multiplication de matrices FP8, a été étendue pour couvrir une bibliothèque complète d’opérateurs essentiels à l’inférence de grands modèles, prenant en charge diverses précisions telles que FP8, FP4, BF16 pour les opérations matricielles, ainsi que des opérateurs spécialisés pour MoE et le scoring d’attention. La nouveauté principale est Mega MoE. L’architecture MoE (experts mixtes) est la base de modèles comme DeepSeek V3, nécessitant lors de l’inférence l’exécution séquentielle de cinq étapes : distribution EP, transformation linéaire de la première couche, activation SwiGLU, transformation linéaire de la seconde couche, fusion EP. La méthode traditionnelle consiste à appeler cinq kernels indépendants successivement, chaque appel devant attendre la fin du précédent, avec des transferts de données en mémoire vidéo. Mega MoE fusionne ces cinq étapes en un seul kernel, permettant à la communication NVLink et au calcul Tensor Core de se faire simultanément, éliminant ainsi les attentes intermédiaires et les transferts de données. Actuellement, seul le combo FP8×FP4 est supporté, nécessitant PyTorch 2.9 ou supérieur. L’équipe indique qu’elle continue d’optimiser cette fonctionnalité, et les données de performance seront publiées ultérieurement. Parmi les autres nouveautés figurent : la multiplication matricielle en précision mixte FP8×FP4, un opérateur de scoring d’attention FP4 supportant des MTP plus grands (Indexer), PDL (démarrage de dépendance programmée, une optimisation de la planification GPU pour réduire la latence de lancement des kernels), une vitesse de compilation JIT plus rapide, ainsi que plusieurs optimisations pour les opérations matricielles MoE. Cette mise à jour a également adapté la disposition des données MoE pour DeepEPv2. La description du PR précise : « Cette publication concerne uniquement le développement de DeepGEMM, et n’est pas liée à la publication de modèles internes. » (Source : BlockBeats)

DEEPSEEK-1,91%
MEGA3,16%
KERNEL2,92%
ME3,41%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé