Muon silencieusement « affamé » 25 % des neurones : après la réparation d'Aurora, l'efficacité des données a été multipliée par cent

robot
Création du résumé en cours

Selon la surveillance Beating, Tilde Research a découvert qu’un optimiseur appelé Muon, utilisé dans des modèles de tête tels que DeepSeek V4, Kimi K2.5, GLM-5, présente un défaut caché : il provoque la mort permanente de plus d’un quart des neurones dans la couche MLP lors des premières phases d’entraînement. L’équipe a conçu un optimiseur alternatif nommé Aurora et l’a rendu open source. Un modèle de 1,1 milliard de paramètres, entraîné avec environ 100 milliards de tokens, a égalé les performances sur des benchmarks de compréhension linguistique comme HellaSwag et Winogrande, comparé à Qwen3-1.7B entraîné avec 36 trillions de tokens. Le problème réside dans une propriété mathématique de Muon lors du traitement de la matrice de poids MLP. Au début de l’entraînement, certains neurones reçoivent par hasard des signaux de gradient faibles. Les optimisateurs traditionnels comme AdamW normalisent progressivement chaque paramètre, nivelant ainsi ces différences ; mais l’étape d’orthogonalisation de Muon transmet sans modification ces signaux faibles. Les neurones faibles continuent de recevoir des mises à jour faibles, devenant de plus en plus silencieux, créant un cercle vicieux de « force des forts » où ils s’éteignent. Au 500e pas d’entraînement, plus d’un quart des neurones sont substantiellement morts, gaspillant inutilement la capacité du paramètre. La version améliorée précédente, NorMuon, atténuait ce problème en forçant la normalisation de l’amplitude de chaque ligne de mise à jour, mais au prix de briser l’orthogonalité de la matrice de mise à jour (l’orthogonalité permettant à chaque étape d’être aussi efficace que possible, c’est l’un des principaux avantages de Muon), ce qui réduisait la précision de l’optimisation. Aurora impose une contrainte conjointe d’« uniformité de mise à jour » et d’« orthogonalité », en utilisant une itération alternée pour satisfaire simultanément ces deux objectifs : assurer que chaque neurone ait une chance équitable d’apprendre, sans sacrifier la précision de mise à jour. Sans réglage de paramètres, Aurora consomme seulement 6 % de calculs en plus par rapport à Muon, et peut le remplacer directement. Dans les benchmarks d’optimisation de modded-nanoGPT, Aurora a battu le record actuel en 3175 étapes. Les avantages d’Aurora s’amplifient avec l’augmentation de la largeur de la couche MLP : plus le facteur d’expansion est élevé, plus l’amélioration est marquée. Le code et le modèle pré-entraîné de 1,1 milliard de paramètres sont déjà open source.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler