208 fois plus rapide + prédiction en 5 microsecondes, exécuter KMeans sur H200 atteint directement 61 % du pic de FLOPS, ces gens de Berkeley ont vraiment exploité Triton à fond

Voir l'original
CoinNetwork
比 cuML 最高提速 208 倍,加州大学伯克利分校等开源经典 ML 加速库 FlashLib
Le site Web de Coinjie affirme que la bibliothèque d'accélération d'apprentissage automatique open source FlashLib, divulguée par OneMillion_AI, a été développée par des équipes telles que Berkeley, couvrant 15 opérateurs de haut niveau, basée sur Triton et Cutedsl, et réalise une accélération significative sur H200 GPU pour des opérateurs comme KMeans et KNN, jusqu'à 208x. Par rapport à cuML 25.10, KMeans 26x, KNN 19x, HDBSCAN 40x, TruncatedSVD 208x ; le pic de FLOPS de KMeans atteint 61 %, la bande passante de KNN est de 85,2 %. De plus, FlashLib offre une API de prédiction de performance en moins de 5 microsecondes, estimant la durée d'exécution et la consommation de mémoire vidéo, le code étant open source sur GitHub.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé