Nous open source Lighthouse Attention : un seul B200 pour exécuter 512K, accélération de 17 fois

robot
Création du résumé en cours
AIMPACT message, le 16 mai (UTC+8), selon la surveillance de Dongcha Beating, Nous Research a open source le mécanisme de pré-entraînement à contexte long Lighthouse Attention. Lors du traitement d’un texte de 512K de longueur sur une seule carte B200, cette solution est environ 17 fois plus rapide que le mécanisme traditionnel, et a permis d’accélérer l’entraînement de bout en bout de 1,4 à 1,7 fois à une longueur de 98K.
Le mécanisme d’attention traditionnel nécessite de calculer les relations entre tous les mots deux à deux, ce qui entraîne une explosion quadratique de la consommation de puissance lorsque le texte est long.
Lighthouse Attention adopte une approche de filtrage grossier puis de calcul précis.
Il parcourt rapidement le résumé compressé du texte à différents niveaux, puis sélectionne les segments clés par scoring pour former un texte court, qui est ensuite directement traité par l’opérateur efficace FlashAttention.
Étant donné que la logique de filtrage est complètement séparée du noyau, les développeurs évitent d’écrire du code bas niveau, ni besoin d’ajouter des objectifs d’entraînement supplémentaires.
Les solutions d’accélération utilisant une approche similaire dans le passé avaient souvent des effets secondaires, car le modèle, habitué à sauter des passages, perdait facilement sa capacité à lire mot à mot.
Pour éviter ce piège, l’équipe de développement a permis au modèle de terminer la majorité du processus en mode accéléré, ne revenant brièvement à la méthode traditionnelle d’attention complète qu’à la fin de l’entraînement pour une adaptation.
Dans les tests avec un modèle de 530 millions de paramètres, entraîné sur 50 milliards de tokens, cette méthode a non seulement considérablement réduit le temps, mais a aussi permis au modèle d’atteindre ou même de dépasser la performance de la version entraînée entièrement avec la méthode traditionnelle.
(Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 9
  • 2
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
PartiallyMeltedIceCream
· Il y a 28m
Une accélération de 17 fois est un peu exagérée, mais 98K n'est que 1,4 à 1,7 fois, il semble que plus la durée est longue, plus les bénéfices sont évidents
Voir l'originalRépondre0
ACalmnessWithAHintOfPomelo
· Il y a 58m
L'astuce de ce procédé consiste à faire une synthèse à plusieurs niveaux de courts textes, puis à les passer à FlashAttention, cette technique ingénieuse.
Voir l'originalRépondre0
GateUser-8ca669fd
· Il y a 1h
Le concours de contexte long entre dans la phase d'optimisation technique, plus intéressant que les paramètres de pile
Voir l'originalRépondre0
TidalShell
· Il y a 1h
Il est un peu surprenant que la ligne de base traditionnelle ait été dépassée, on pensait que l'accélération devait forcément sacrifier la qualité
Voir l'originalRépondre0
GateUser-318a7dc8
· Il y a 1h
5.3 milliards de paramètres suffisent pour la validation, même une petite équipe peut suivre.
Voir l'originalRépondre0
GateUser-d6fb8ff1
· Il y a 1h
Attendez que le code soit publié pour tester combien de K mon 4090 peut supporter
Voir l'originalRépondre0
Glass-HeartMarketMaker
· Il y a 1h
L'élimination d'objectifs d'entraînement supplémentaires est trop cruciale, sinon même en open source, personne ne pourra l'entraîner correctement.
Voir l'originalRépondre0
OrderbookOtter
· Il y a 1h
Le nom Lighthouse est bien choisi, d'abord éclairer l'essentiel puis examiner en détail
Voir l'originalRépondre0
TokenTinkerTao
· Il y a 1h
B200 carte unique 512K, à l'avenir, le coût pour les particuliers pour exécuter de longs documents RAG sera réduit
Voir l'originalRépondre0
Afficher plus
  • Épinglé