PyTorch TorchInductor intègre CuteDSL comme backend d'optimisation automatique pour la multiplication de matrices

robot
Création du résumé en cours

Actualités ME News, 7 avril (UTC+8), l’équipe officielle de PyTorch a récemment annoncé avoir intégré CuteDSL en tant que quatrième backend d’optimisation automatique pour la multiplication de matrices dans TorchInductor. Le choix de ce backend repose sur trois critères : ne pas augmenter la charge de maintenance, ne pas ralentir le temps de compilation ou de benchmark, et offrir de meilleures performances sur la charge de travail cible. CuteDSL, développé activement par NVIDIA, fournit des modèles de noyaux optimisés, dont le temps de compilation est comparable à celui des backend existants, tout en surpassant nettement la voie CUTLASS C++ nécessitant une compilation complète avec \nvcc. Ce backend est construit sur la même abstraction que CUTLASS C++, écrit en Python, avec une compilation plus rapide, une maintenance plus simple, et a déjà prouvé ses performances robustes dans le domaine du GEMM FP8 et de la fusion d’épilogue. L’équipe se concentre sur l’optimisation du GEMM (multiplication de matrices), car il représente la majeure partie du coût de calcul dans les modèles Transformer. CuteDSL génère du code bas niveau via des modèles manuellement optimisés, évitant la complexité de l’écriture de noyaux à partir de zéro, tout en exposant entièrement la hiérarchie des threads et de la mémoire, et supportant les fonctionnalités spécifiques à l’architecture. (Source : InFoQ)

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler