Lighthouse Attention cette idée est plutôt astucieuse, d'abord un tri grossier puis un calcul précis, couper les longs textes en segments courts à donner à FlashAttention, sur une seule carte B200, 512K peut être 17 fois plus rapide, à la fin de l'entraînement revenir à l'attention complète pour éviter la lecture sautée, le modèle de 5.3B tourne toujours sans perte de performance, l'optimisation du contexte long n'a finalement plus besoin de se battre contre le kernel de bas niveau

Voir l'original
Le contenu original n'est plus visible
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé