Muon тихо «умер» на 25% нейронов: после восстановления Aurora эффективность данных выросла в сотни раз

robot
Генерация тезисов в процессе

По данным мониторинга Beating, исследовательская команда Tilde обнаружила скрытый дефект в оптимизаторе Muon, используемом в ведущих моделях DeepSeek V4, Kimi K2.5, GLM-5 и других: он вызывает постоянную смерть более четверти нейронов в слоях MLP на ранних этапах обучения. На основе этого команда разработала альтернативный оптимизатор Aurora и выпустила его с открытым исходным кодом. Одномодельный 1.1B всего за примерно 100B токенов достиг уровня, сравнимого с Qwen3-1.7B, обученной на 36T токенов, на задачах понимания языка HellaSwag, Winogrande и других.
Проблема кроется в математической особенности обработки весовых матриц MLP в Muon. В начале обучения некоторые нейроны случайно получают слабый градиентный сигнал. Традиционные оптимизаторы, такие как AdamW, нормализуют параметры по мере обновления, сглаживая такие различия; однако шаг ортогонализации Muon передает слабый сигнал без изменений. В результате слабые нейроны продолжают получать слабое обновление, становясь всё более молчаливыми, что создает порочный круг «сильные становятся сильнее». К 500-му шагу более четверти нейронов фактически умирают, что зря тратит параметры модели.
Ранее предложенная версия NorMuon пыталась решить проблему, принудительно выравнивая амплитуду обновлений по строкам, но это разрушало ортогональность матрицы обновлений (которая делает каждый шаг максимально эффективным и является ключевым преимуществом Muon), что снижало точность оптимизации.
Aurora объединяет ограничения «равномерности обновлений» и «ортогональности», используя чередующиеся итерации для одновременного соблюдения обеих целей: обеспечивая каждому нейрону равные возможности обучения и не жертвуя точностью обновлений.
Без настройки параметров Aurora требует всего на 6% больше вычислительных ресурсов по сравнению с Muon и может быть использована как замена. В тестах на оптимизацию modded-nanoGPT Aurora достигла нового рекорда за 3175 шагов.
Преимущества Aurora усиливаются с увеличением ширины MLP: чем выше коэффициент расширения, тем заметнее улучшение.
Код и предварительно обученная модель 1.1B уже опубликованы с открытым исходным кодом.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить