17 fois plus rapide sans modifier la couche de base CUDA, cette conception de Nous est vraiment une voie rapide pour l'inférence de longs textes, et le passage à l'attention complète à la fin de l'entraînement est également très stable.

Voir l'original
MeNews
Nous open source Lighthouse Attention : un seul B200 pour exécuter 512K, accélération de 17 fois
AIMPACT affirme que Nous Research a open source le mécanisme de pré-entraînement à long contexte Lighthouse Attention.
Une seule carte B200 traite environ 17 fois plus rapidement 512K de texte, avec une accélération de 1.4 à 1.7 fois pour 98K.
Ce mécanisme filtre d'abord grossièrement puis affine, en utilisant des résumés multi-niveaux pour extraire les segments clés et les assembler en un texte court, puis le confie à FlashAttention ;
La logique de filtrage est en dehors du noyau, évitant ainsi le code de bas niveau et des objectifs d'entraînement supplémentaires.
Pour éviter que le saut de lecture du modèle ne perde la capacité de lire mot à mot, lors de l'entraînement, la majorité est effectuée en mode accéléré, puis en fin de courte période, on revient brièvement à une attention complète.
Dans une expérience avec 530 millions de paramètres et 50 milliards de tokens, le temps de traitement a été considérablement réduit et la performance finale est comparable voire supérieure aux lignes de base traditionnelles.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé