Muon silenciosamente «muere de hambre» al 25% de las neuronas: tras la reparación de Aurora, la eficiencia de datos se multiplica por cien

robot
Generación de resúmenes en curso

Según la monitorización de Beating, Tilde Research descubrió que un defecto oculto en el optimizador Muon, utilizado en modelos líderes como DeepSeek V4, Kimi K2.5 y GLM-5, hace que en las primeras etapas del entrenamiento las capas MLP tengan más de una cuarta parte de sus neuronas muertas de forma permanente. El equipo diseñó un optimizador alternativo llamado Aurora y lo liberó como código abierto. Un modelo de 1.1B solo con aproximadamente 100B de tokens logró igualar en tareas de comprensión del lenguaje como HellaSwag, Winogrande, a Qwen3-1.7B entrenado con 36T de tokens.

El problema radica en una característica matemática del manejo de la matriz de pesos MLP por parte de Muon. En las primeras etapas del entrenamiento, algunas neuronas reciben de casualidad señales de gradiente más débiles. Los optimizadores tradicionales como AdamW normalizan los parámetros uno por uno, suavizando naturalmente estas diferencias; pero el paso de ortogonalización de Muon transmite las señales débiles sin cambios. Las neuronas con señales débiles continúan recibiendo actualizaciones débiles, volviéndose cada vez más silenciosas, formando un ciclo de “los fuertes se fortalecen” que lleva a la muerte de más de una cuarta parte de las neuronas en el paso 500, desperdiciando capacidad de parámetros.

La versión mejorada anterior, NorMuon, intentó aliviar esto forzando la normalización de la magnitud de cada fila de actualizaciones, pero a costa de destruir la ortogonalidad de la matriz de actualización (la ortogonalidad hace que cada paso de actualización sea lo más eficiente posible, que es la ventaja principal de Muon), lo que resultó en pérdida de precisión en la optimización. Aurora establece como restricciones conjuntas la “actualización uniforme” y la “ortogonalidad”, alternando iteraciones para cumplir ambas simultáneamente: asegurando que cada neurona tenga una oportunidad justa de aprender, sin sacrificar la precisión de la actualización.

Aurora, sin ajuste de parámetros, solo consume un 6% más de cálculo que Muon y puede reemplazarlo directamente. En las pruebas de puntuación en modded-nanoGPT, Aurora logró un nuevo récord en 3175 pasos. La ventaja de Aurora se amplifica a medida que aumenta el ancho de las capas MLP; cuanto mayor sea el factor de expansión, mayor será la mejora.

El código y el modelo preentrenado de 1.1B ya están disponibles como código abierto.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado