Des recherches ont révélé que l'optimiseur de modèle de tête Muon provoque la mort permanente de plus d’un quart des neurones MLP lors des premières phases d’entraînement, en conservant faiblement le signal en raison de son orthogonalisation, ce qui entraîne un phénomène de « gagnant » permanent. Aurora contraint simultanément l’uniformité de mise à jour et l’orthogonalité par une contrainte parallèle, en alternant les itérations pour réaliser les deux, améliorant ainsi significativement l’efficacité et la stabilité de l’apprentissage. Aurora non paramétré peut directement remplacer Muon ; un modèle de 1,1 milliard de paramètres a utilisé environ 100 milliards de tokens, atteignant des performances proches de Qwen3-1.7B entraîné avec 36T tokens sur plusieurs benchmarks de compréhension linguistique, et ses avantages augmentent avec la largeur du MLP. Le code et le modèle pré-entraîné de 1,1 milliard de paramètres ont été open source.

MarsBitNews

2026-05-10 05:11:34

Création du résumé en cours

Selon la surveillance Beating, Tilde Research a découvert qu’un optimiseur appelé Muon, utilisé dans des modèles de tête tels que DeepSeek V4, Kimi K2.5, GLM-5, présente un défaut caché : il provoque la mort permanente de plus d’un quart des neurones dans la couche MLP lors des premières phases d’entraînement. L’équipe a conçu un optimiseur alternatif nommé Aurora et l’a rendu open source. Un modèle de 1,1 milliard de paramètres, entraîné avec environ 100 milliards de tokens, a égalé les performances sur des benchmarks de compréhension linguistique comme HellaSwag et Winogrande, comparé à Qwen3-1.7B entraîné avec 36 trillions de tokens. Le problème réside dans une propriété mathématique de Muon lors du traitement de la matrice de poids MLP. Au début de l’entraînement, certains neurones reçoivent par hasard des signaux de gradient faibles. Les optimisateurs traditionnels comme AdamW normalisent progressivement chaque paramètre, nivelant ainsi ces différences ; mais l’étape d’orthogonalisation de Muon transmet sans modification ces signaux faibles. Les neurones faibles continuent de recevoir des mises à jour faibles, devenant de plus en plus silencieux, créant un cercle vicieux de « force des forts » où ils s’éteignent. Au 500e pas d’entraînement, plus d’un quart des neurones sont substantiellement morts, gaspillant inutilement la capacité du paramètre. La version améliorée précédente, NorMuon, atténuait ce problème en forçant la normalisation de l’amplitude de chaque ligne de mise à jour, mais au prix de briser l’orthogonalité de la matrice de mise à jour (l’orthogonalité permettant à chaque étape d’être aussi efficace que possible, c’est l’un des principaux avantages de Muon), ce qui réduisait la précision de l’optimisation. Aurora impose une contrainte conjointe d’« uniformité de mise à jour » et d’« orthogonalité », en utilisant une itération alternée pour satisfaire simultanément ces deux objectifs : assurer que chaque neurone ait une chance équitable d’apprendre, sans sacrifier la précision de mise à jour. Sans réglage de paramètres, Aurora consomme seulement 6 % de calculs en plus par rapport à Muon, et peut le remplacer directement. Dans les benchmarks d’optimisation de modded-nanoGPT, Aurora a battu le record actuel en 3175 étapes. Les avantages d’Aurora s’amplifient avec l’augmentation de la largeur de la couche MLP : plus le facteur d’expansion est élevé, plus l’amélioration est marquée. Le code et le modèle pré-entraîné de 1,1 milliard de paramètres sont déjà open source.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
GateSquareMayTradingShare
1.06M Popularité
#
BTCBackAbove80K
59.45M Popularité
#
IsraelStrikesIranBTCPlunges
45.63K Popularité
#
JapanTokenizesGovernmentBonds
1.91M Popularité
#
#DailyPolymarketHotspot
873.07K Popularité

Épingler

Muon silencieusement « affamé » 25 % des neurones : après la réparation d'Aurora, l'efficacité des données a été multipliée par cent

Sujets populaires

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

Épingler