Nous Research publie Lighthouse Attention, la pré-formation sur de longues séquences accélérée de 1,4 à 1,7 fois

AIMPACT message, 17 mai (UTC+8), Nous Research a lancé la méthode Lighthouse Attention, qui résout le problème de croissance quadratique du coût de calcul de l’attention lors de la pré-formation de longues séquences en utilisant un mécanisme d’attention hiérarchique sélectif.
Cette méthode effectue une mise en commun symétrique de Query, Key et Value, avec une logique de sélection située en dehors du noyau d’attention, réutilisable avec le noyau FlashAttention, et adopte une stratégie d’entraînement en deux phases.
Les tests sur NVIDIA B200 montrent qu’à une longueur de contexte d’environ 512K, la vitesse de propagation avant est accélérée de 21 fois, la vitesse combinée avant + arrière est multipliée par 17,3, avec un débit de 126 000 tokens/s/GPU en première phase (contre 46 000 pour SDPA dense), et une accélération de bout en bout allant de 1,40× à 1,69×, tout en maintenant un loss d’entraînement égal ou inférieur.
Validé sur un modèle de style Llama-3 de 530 millions de paramètres, trois groupes de Lighthouse ont obtenu un loss final (0,698-0,71) supérieur au benchmark SDPA dense entraîné de manière classique (0,7237), économisant entre 22,5 et 27 heures de temps d’entraînement.
Article arXiv:2605.06554.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé