Muon silencieusement « affamé » 25 % des neurones : après la réparation Aurora, l'efficacité des données est multipliée par cent

robot
Création du résumé en cours

Selon la surveillance Beating, Tilde Research a découvert qu’un optimiseur appelé Muon, utilisé dans des modèles de pointe tels que DeepSeek V4, Kimi K2.5, GLM-5, possède un défaut caché : il provoque la mort permanente de plus d’un quart des neurones dans la couche MLP lors des premières phases d’entraînement. L’équipe a conçu un optimiseur alternatif nommé Aurora et l’a rendu open source. Un modèle de 1,1 milliard de paramètres, entraîné avec environ 100 milliards de tokens, a égalé les performances de Qwen3-1.7B, entraîné avec 36 trillions de tokens, sur des benchmarks de compréhension linguistique comme HellaSwag et Winogrande.

Le problème réside dans une propriété mathématique de Muon lors du traitement de la matrice de poids MLP. Au début de l’entraînement, certains neurones reçoivent par hasard des signaux de gradient faibles. Les optimisateurs traditionnels comme AdamW normalisent progressivement chaque paramètre, nivelant ainsi ces différences ; mais l’étape d’orthogonalisation de Muon transmet sans modification ces signaux faibles. Les neurones faibles continuent de recevoir des mises à jour faibles, devenant de plus en plus silencieux, ce qui crée un cercle vicieux de « force des forts » : les neurones forts deviennent encore plus forts, tandis que les faibles meurent. Au 500e pas d’entraînement, plus d’un quart des neurones sont effectivement morts, gaspillant inutilement la capacité du paramètre.

Une version améliorée précédente, NorMuon, atténuait ce problème en forçant la normalisation de l’amplitude de chaque ligne de mise à jour, mais au prix de briser l’orthogonalité de la matrice de mise à jour (l’orthogonalisation étant la clé de l’efficacité de Muon), ce qui réduisait la précision de l’optimisation. Aurora combine « uniformité des mises à jour » et « orthogonalité » en tant que contraintes conjointes, utilisant une itération alternée pour satisfaire les deux : assurer à chaque neurone une chance équitable d’apprendre, sans sacrifier la précision de mise à jour.

Aurora, sans réglage de paramètres, consomme seulement 6 % de calculs en plus par rapport à Muon, et peut le remplacer directement. Lors des tests d’optimisation sur modded-nanoGPT, Aurora a battu le record actuel en 3175 étapes. Son avantage s’amplifie avec l’augmentation de la largeur de la couche MLP : plus le facteur d’expansion est élevé, plus l’amélioration est significative.

Le code et le modèle pré-entraîné de 1,1 milliard de paramètres ont été open source.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler