Lighthouse Attention, cette idée est plutôt astucieuse, d'abord un tri grossier puis un calcul précis, le contexte long n'a finalement plus besoin d'être supporté de force

Voir l'original
MeNews
Nous open source Lighthouse Attention : seul B200 pour accélérer 512K, augmentation de 17 fois
AIMPACT affirme que Nous Research a développé le mécanisme d'entraînement en pré-formation à long contexte open source Lighthouse Attention. Avec une seule carte B200, le traitement de 512K textes est environ 17 fois plus rapide, et à 98K, la vitesse de bout en bout est accélérée de 1,4 à 1,7 fois. Ce mécanisme filtre d'abord grossièrement puis affine, en sélectionnant les segments clés à travers une synthèse à plusieurs niveaux, puis en les assemblant en un texte court, avant de les traiter avec FlashAttention ; la logique de filtrage est en dehors du noyau, évitant ainsi le code de bas niveau et des objectifs d'entraînement supplémentaires. Pour éviter que le saut de lecture du modèle ne compromette la capacité de lecture mot à mot, lors de l'entraînement, la majorité du traitement est effectuée en mode accéléré, puis en fin de séance, le mode attention complète est brièvement rétabli. Dans une expérience avec 530 millions de paramètres et 50 milliards de tokens, le temps de traitement a été considérablement réduit, et la performance finale est comparable voire supérieure aux méthodes traditionnelles.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé