Double attention avec sélection grossière + calcul précis, revenant à une attention complète en fin d'entraînement pour éviter la lecture sautée, la performance du modèle 5.3B ne diminue pas mais s'améliore. Le contexte long n'a plus besoin d'empiler des cartes pour le faire face.

Voir l'original
MeNews
Nous open source Lighthouse Attention : un seul B200 pour exécuter 512K, accélération de 17 fois
AIMPACT affirme que Nous Research a open source le mécanisme de pré-entraînement à long contexte Lighthouse Attention.
Une seule carte B200 traite environ 17 fois plus rapidement 512K de texte, avec une accélération de 1,4 à 1,7 fois pour 98K en bout en bout.
Ce mécanisme filtre d'abord grossièrement puis affine, en sélectionnant les segments clés par un résumé multi-niveaux et en les assemblant en un texte court, puis en le confiant à FlashAttention ;
La logique de filtrage est en dehors du noyau, évitant ainsi le code de bas niveau et des objectifs d'entraînement supplémentaires.
Pour éviter que le saut de lecture du modèle ne perde la capacité de lire mot à mot, lors de l'entraînement, la majorité du traitement est effectuée en mode accéléré, puis en fin de courte période, on revient brièvement à une attention complète.
Dans une expérience avec 530 millions de paramètres et 50 milliards de tokens, le temps de traitement a été considérablement réduit et la performance finale est comparable voire supérieure aux méthodes traditionnelles.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé