Des recherches ont montré que l'optimiseur Muon provoque la mort permanente de certains neurones MLP lors des premières phases d'entraînement, en raison de la conservation faible du signal lors de l'orthogonalisation. Aurora équilibre les deux en contraignant simultanément la mise à jour uniforme et l'orthogonalité, en utilisant une itération alternée pour éviter la mort neuronale et améliorer l'efficacité. Sans réglage des paramètres, Aurora ne nécessite qu'environ 6 % de surcharge de calcul par rapport à Muon pour le remplacer, atteignant un niveau proche de celui de Qwen3-1.7B entraîné sur 36T avec environ 100 milliards de tokens sur un modèle de 1,1 milliard ; le code et le modèle ont été open source.

BlockBeatNews

2026-05-10 04:07:30

Création du résumé en cours

Selon la surveillance Beating, Tilde Research a découvert qu’un optimiseur appelé Muon, utilisé dans des modèles de pointe tels que DeepSeek V4, Kimi K2.5, GLM-5, possède un défaut caché : il provoque la mort permanente de plus d’un quart des neurones dans la couche MLP lors des premières phases d’entraînement. L’équipe a conçu un optimiseur alternatif nommé Aurora et l’a rendu open source. Un modèle de 1,1 milliard de paramètres, entraîné avec environ 100 milliards de tokens, a égalé les performances de Qwen3-1.7B, entraîné avec 36 trillions de tokens, sur des benchmarks de compréhension linguistique comme HellaSwag et Winogrande.

Le problème réside dans une propriété mathématique de Muon lors du traitement de la matrice de poids MLP. Au début de l’entraînement, certains neurones reçoivent par hasard des signaux de gradient faibles. Les optimisateurs traditionnels comme AdamW normalisent progressivement chaque paramètre, nivelant ainsi ces différences ; mais l’étape d’orthogonalisation de Muon transmet sans modification ces signaux faibles. Les neurones faibles continuent de recevoir des mises à jour faibles, devenant de plus en plus silencieux, ce qui crée un cercle vicieux de « force des forts » : les neurones forts deviennent encore plus forts, tandis que les faibles meurent. Au 500e pas d’entraînement, plus d’un quart des neurones sont effectivement morts, gaspillant inutilement la capacité du paramètre.

Une version améliorée précédente, NorMuon, atténuait ce problème en forçant la normalisation de l’amplitude de chaque ligne de mise à jour, mais au prix de briser l’orthogonalité de la matrice de mise à jour (l’orthogonalisation étant la clé de l’efficacité de Muon), ce qui réduisait la précision de l’optimisation. Aurora combine « uniformité des mises à jour » et « orthogonalité » en tant que contraintes conjointes, utilisant une itération alternée pour satisfaire les deux : assurer à chaque neurone une chance équitable d’apprendre, sans sacrifier la précision de mise à jour.

Aurora, sans réglage de paramètres, consomme seulement 6 % de calculs en plus par rapport à Muon, et peut le remplacer directement. Lors des tests d’optimisation sur modded-nanoGPT, Aurora a battu le record actuel en 3175 étapes. Son avantage s’amplifie avec l’augmentation de la largeur de la couche MLP : plus le facteur d’expansion est élevé, plus l’amélioration est significative.

Le code et le modèle pré-entraîné de 1,1 milliard de paramètres ont été open source.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
GateSquareMayTradingShare
1.09M Popularité
#
BTCBackAbove80K
59.46M Popularité
#
IsraelStrikesIranBTCPlunges
45.71K Popularité
#
JapanTokenizesGovernmentBonds
1.92M Popularité
#
#DailyPolymarketHotspot
874.14K Popularité

Épingler

Muon silencieusement « affamé » 25 % des neurones : après la réparation Aurora, l'efficacité des données est multipliée par cent

Sujets populaires

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

Épingler