Los estudios han descubierto que el optimizador Muon provoca la muerte permanente de algunas neuronas MLP en las primeras etapas del entrenamiento, debido a que la ortogonalización retiene señales débiles. Aurora, mediante la restricción simultánea de la actualización uniforme y la ortogonalidad, y utilizando iteraciones alternas, equilibra ambos aspectos, evita la muerte y mejora la eficiencia. Sin ajuste de parámetros, Aurora solo requiere un 6% más de costo computacional que Muon para reemplazarlo, logrando en un modelo de 1.1B de parámetros un rendimiento similar al Qwen3-1.7B entrenado con aproximadamente 100B de tokens y 36T de entrenamiento; el código y el modelo ya están de código abierto.

BlockBeatNews

2026-05-10 04:07:30

Generación de resúmenes en curso

Según la monitorización de Beating, Tilde Research descubrió que un defecto oculto en el optimizador Muon, utilizado en modelos líderes como DeepSeek V4, Kimi K2.5 y GLM-5, hace que en las primeras etapas del entrenamiento las capas MLP tengan más de una cuarta parte de sus neuronas muertas de forma permanente. El equipo diseñó un optimizador alternativo llamado Aurora y lo liberó como código abierto. Un modelo de 1.1B solo con aproximadamente 100B de tokens logró igualar en tareas de comprensión del lenguaje como HellaSwag, Winogrande, a Qwen3-1.7B entrenado con 36T de tokens.

El problema radica en una característica matemática del manejo de la matriz de pesos MLP por parte de Muon. En las primeras etapas del entrenamiento, algunas neuronas reciben de casualidad señales de gradiente más débiles. Los optimizadores tradicionales como AdamW normalizan los parámetros uno por uno, suavizando naturalmente estas diferencias; pero el paso de ortogonalización de Muon transmite las señales débiles sin cambios. Las neuronas con señales débiles continúan recibiendo actualizaciones débiles, volviéndose cada vez más silenciosas, formando un ciclo de “los fuertes se fortalecen” que lleva a la muerte de más de una cuarta parte de las neuronas en el paso 500, desperdiciando capacidad de parámetros.

La versión mejorada anterior, NorMuon, intentó aliviar esto forzando la normalización de la magnitud de cada fila de actualizaciones, pero a costa de destruir la ortogonalidad de la matriz de actualización (la ortogonalidad hace que cada paso de actualización sea lo más eficiente posible, que es la ventaja principal de Muon), lo que resultó en pérdida de precisión en la optimización. Aurora establece como restricciones conjuntas la “actualización uniforme” y la “ortogonalidad”, alternando iteraciones para cumplir ambas simultáneamente: asegurando que cada neurona tenga una oportunidad justa de aprender, sin sacrificar la precisión de la actualización.

Aurora, sin ajuste de parámetros, solo consume un 6% más de cálculo que Muon y puede reemplazarlo directamente. En las pruebas de puntuación en modded-nanoGPT, Aurora logró un nuevo récord en 3175 pasos. La ventaja de Aurora se amplifica a medida que aumenta el ancho de las capas MLP; cuanto mayor sea el factor de expansión, mayor será la mejora.

El código y el modelo preentrenado de 1.1B ya están disponibles como código abierto.

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
GateSquareMayTradingShare
1.08M Popularidad
#
BTCBackAbove80K
59.46M Popularidad
#
IsraelStrikesIranBTCPlunges
45.68K Popularidad
#
JapanTokenizesGovernmentBonds
1.92M Popularidad
#
#DailyPolymarketHotspot
872.77K Popularidad

Anclado

Muon silenciosamente «muere de hambre» al 25% de las neuronas: tras la reparación de Aurora, la eficiencia de datos se multiplica por cien

Temas de actualidad

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

Anclado