AIMPACT message, le 16 mai (UTC+8), selon la surveillance de Dongcha Beating, Nous Research a open source le mécanisme de pré-entraînement à contexte long Lighthouse Attention. Lors du traitement d’un texte de 512K de longueur sur une seule carte B200, cette solution est environ 17 fois plus rapide que le mécanisme traditionnel, et a permis d’accélérer l’entraînement de bout en bout de 1,4 à 1,7 fois à une longueur de 98K.
Le mécanisme d’attention traditionnel nécessite de calculer les relations entre tous les mots deux à deux, ce qui entraîne une explosion quadratique de la consommation de puissance lorsque le texte est long.
Lighthouse Attention adopte une approche de filtrage grossier puis de calcul précis.
Il parcourt rapidement le résumé compressé du texte à différents niveaux, puis sélectionne les segments clés par scoring pour former un texte court, qui est ensuite directement traité par l’opérateur efficace FlashAttention.
Étant donné que la logique de filtrage est complètement séparée du noyau, les développeurs évitent d’écrire du code bas niveau, ni besoin d’ajouter des objectifs d’entraînement supplémentaires.
Les solutions d’accélération utilisant une approche similaire dans le passé avaient souvent des effets secondaires, car le modèle, habitué à sauter des passages, perdait facilement sa capacité à lire mot à mot.
Pour éviter ce piège, l’équipe de développement a permis au modèle de terminer la majorité du processus en mode accéléré, ne revenant brièvement à la méthode traditionnelle d’attention complète qu’à la fin de l’entraînement pour une adaptation.
Dans les tests avec un modèle de 530 millions de paramètres, entraîné sur 50 milliards de tokens, cette méthode a non seulement considérablement réduit le temps, mais a aussi permis au modèle d’atteindre ou même de dépasser la performance de la version entraînée entièrement avec la méthode traditionnelle.
(Source : BlockBeats)

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

7 J'aime

Récompense
7
9
2
Partager

Commentaire

Ajouter un commentaire

PartiallyMeltedIceCream

· Il y a 28m

Une accélération de 17 fois est un peu exagérée, mais 98K n'est que 1,4 à 1,7 fois, il semble que plus la durée est longue, plus les bénéfices sont évidents

Voir l'originalRépondre0

ACalmnessWithAHintOfPomelo

· Il y a 58m

L'astuce de ce procédé consiste à faire une synthèse à plusieurs niveaux de courts textes, puis à les passer à FlashAttention, cette technique ingénieuse.

Voir l'originalRépondre0

GateUser-8ca669fd

· Il y a 1h

Le concours de contexte long entre dans la phase d'optimisation technique, plus intéressant que les paramètres de pile

Voir l'originalRépondre0

TidalShell

· Il y a 1h

Il est un peu surprenant que la ligne de base traditionnelle ait été dépassée, on pensait que l'accélération devait forcément sacrifier la qualité

Voir l'originalRépondre0

GateUser-318a7dc8

· Il y a 1h

5.3 milliards de paramètres suffisent pour la validation, même une petite équipe peut suivre.

Voir l'originalRépondre0

GateUser-d6fb8ff1

· Il y a 1h

Attendez que le code soit publié pour tester combien de K mon 4090 peut supporter

Voir l'originalRépondre0

Glass-HeartMarketMaker

· Il y a 1h

L'élimination d'objectifs d'entraînement supplémentaires est trop cruciale, sinon même en open source, personne ne pourra l'entraîner correctement.

Voir l'originalRépondre0

OrderbookOtter

· Il y a 1h

Le nom Lighthouse est bien choisi, d'abord éclairer l'essentiel puis examiner en détail

Voir l'originalRépondre0

TokenTinkerTao

· Il y a 1h

B200 carte unique 512K, à l'avenir, le coût pour les particuliers pour exécuter de longs documents RAG sera réduit

Voir l'originalRépondre0

Afficher plus

Sujets populaires
Afficher plus
#
WinGoldBarsWithGrowthPoints
1.25M Popularité
#
WTICrudeFallsBelow90Dollars
1.57M Popularité
#
IsraelStrikesIranBTCPlunges
51.65K Popularité
#
StockTradingChallengeUpTo17000U
211.39K Popularité
#
USIranNegotiationGame
9.36M Popularité

Épinglé

Nous open source Lighthouse Attention : un seul B200 pour exécuter 512K, accélération de 17 fois

Sujets populaires

WinGoldBarsWithGrowthPoints

WTICrudeFallsBelow90Dollars

IsraelStrikesIranBTCPlunges

StockTradingChallengeUpTo17000U

USIranNegotiationGame

Épinglé