Muon silenciosamente «muere de hambre» al 25% de las neuronas: tras la reparación de Aurora, la eficiencia de datos se multiplica por cien

robot
Generación de resúmenes en curso

Según la monitorización de Beating, Tilde Research descubrió que un defecto oculto en el optimizador Muon, utilizado en modelos líderes como DeepSeek V4, Kimi K2.5 y GLM-5, es que hace que las capas MLP mueran permanentemente en más de una cuarta parte de las neuronas en las primeras etapas del entrenamiento. El equipo diseñó un optimizador alternativo llamado Aurora y lo liberó como código abierto. Un modelo de 1.1B solo con aproximadamente 100B de tokens logró igualar en tareas de comprensión del lenguaje como HellaSwag, Winogrande, a Qwen3-1.7B entrenado con 36T de tokens.
El problema radica en una característica matemática en cómo Muon procesa la matriz de pesos de la capa MLP. Al inicio del entrenamiento, algunas neuronas reciben de casualidad señales de gradiente más débiles. Los optimizadores tradicionales como AdamW normalizan gradualmente cada parámetro, suavizando naturalmente estas diferencias; pero el paso de ortogonalización de Muon transmite las señales débiles sin cambios. Las neuronas con señales débiles continúan recibiendo actualizaciones débiles, volviéndose cada vez más silenciosas, formando un ciclo vicioso de “los fuertes se fortalecen”.
Al llegar a la 500ª iteración, más de una cuarta parte de las neuronas están prácticamente muertas, desperdiciando capacidad de parámetros. La versión mejorada NorMuon intentó aliviar esto forzando la uniformidad en la magnitud de las actualizaciones de cada fila, pero a costa de destruir la ortogonalidad de la matriz de actualización (que hace que cada paso sea lo más eficiente posible y es una ventaja central de Muon), perdiendo precisión en la optimización.
Aurora establece como restricciones conjuntas la “actualización uniforme” y la “ortogonalidad”, alternando iteraciones para cumplir ambas simultáneamente: asegurando que cada neurona tenga una oportunidad justa de aprender sin sacrificar la precisión de la actualización.
Aurora sin ajustar parámetros solo consume un 6% más de cálculo que Muon y puede reemplazarlo directamente. En las pruebas de puntuación en modded-nanoGPT, Aurora logró un nuevo récord en 3175 pasos. La ventaja de Aurora se amplifica a medida que aumenta el ancho de las capas MLP; cuanto mayor sea el factor de expansión, mayor será la mejora.
El código y el modelo preentrenado de 1.1B ya están disponibles como código abierto.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado