MiniMax open source bibliothèque d'attention exclusive Blackwell, le poids M3 prévu pour ce vendredi

robot
Création du résumé en cours
ME AI Message, selon le suivi Beating, le responsable des relations développeurs de MiniMax Ryan Lee a annoncé que la bibliothèque d'attention haute performance MiniMax Sparse Attention (MSA) pour GPU NVIDIA Blackwell (SM100) est désormais open source, sous licence MIT. Ryan Lee a également indiqué que les poids de MiniMax-M3 devraient être publiés ce vendredi. MSA a été appliqué à l'inférence de contexte de millions de tokens de MiniMax-M3, en filtrant les blocs KV les plus pertinents dans chaque groupe GQA, ne calculant l'attention que sur les blocs sélectionnés. La publication montre qu'à un contexte de 1 million de tokens, par rapport à un GQA dense configuré de la même manière, MSA peut réduire la charge de calcul de l'attention de 28,4 fois, et réaliser une accélération de 14,2 fois pour le pré-remplissage et de 7,6 fois pour le décodage sur GPU H800. La version open source intègre dans le même package Python deux implémentations : C++ JIT et CuTe-DSL, tout en fournissant des kernels d'attention FlashAttention dense et Sparse Top-k Attention, supportant plusieurs formats de précision tels que BF16, FP8, NVFP4 et FP4. Actuellement principalement déployé sur GPU NVIDIA Blackwell (SM100). (Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé