Исследования показали, что оптимизатор для моделей головы Muon в ранней стадии обучения вызывает постоянную смерть более четверти нейронов MLP, поскольку его ортогонализация сохраняет слабые сигналы, что приводит к эффекту «сильные становятся сильнее». Aurora одновременно вводит ограничения на равномерность обновлений и ортогональность, чередуя итерации для достижения обеих целей, что значительно повышает эффективность и стабильность обучения. Не настроенный Aurora может напрямую заменить Muon; модель 1.1B использовала всего около 100B токенов, чтобы приблизиться к результатам Qwen3-1.7B, обученной на 36T токенов, по нескольким задачам понимания языка, и преимущества увеличиваются с шириной MLP. Код и предварительно обученная модель 1.1B уже опубликованы в открытом доступе.

MarsBitNews

2026-05-10 05:11:34

Генерация тезисов в процессе

По данным мониторинга Beating, исследовательская команда Tilde обнаружила скрытый дефект в оптимизаторе Muon, используемом в ведущих моделях DeepSeek V4, Kimi K2.5, GLM-5 и других: он вызывает постоянную смерть более четверти нейронов в слоях MLP на ранних этапах обучения. На основе этого команда разработала альтернативный оптимизатор Aurora и выпустила его с открытым исходным кодом. Одномодельный 1.1B всего за примерно 100B токенов достиг уровня, сравнимого с Qwen3-1.7B, обученной на 36T токенов, на задачах понимания языка HellaSwag, Winogrande и других.
Проблема кроется в математической особенности обработки весовых матриц MLP в Muon. В начале обучения некоторые нейроны случайно получают слабый градиентный сигнал. Традиционные оптимизаторы, такие как AdamW, нормализуют параметры по мере обновления, сглаживая такие различия; однако шаг ортогонализации Muon передает слабый сигнал без изменений. В результате слабые нейроны продолжают получать слабое обновление, становясь всё более молчаливыми, что создает порочный круг «сильные становятся сильнее». К 500-му шагу более четверти нейронов фактически умирают, что зря тратит параметры модели.
Ранее предложенная версия NorMuon пыталась решить проблему, принудительно выравнивая амплитуду обновлений по строкам, но это разрушало ортогональность матрицы обновлений (которая делает каждый шаг максимально эффективным и является ключевым преимуществом Muon), что снижало точность оптимизации.
Aurora объединяет ограничения «равномерности обновлений» и «ортогональности», используя чередующиеся итерации для одновременного соблюдения обеих целей: обеспечивая каждому нейрону равные возможности обучения и не жертвуя точностью обновлений.
Без настройки параметров Aurora требует всего на 6% больше вычислительных ресурсов по сравнению с Muon и может быть использована как замена. В тестах на оптимизацию modded-nanoGPT Aurora достигла нового рекорда за 3175 шагов.
Преимущества Aurora усиливаются с увеличением ширины MLP: чем выше коэффициент расширения, тем заметнее улучшение.
Код и предварительно обученная модель 1.1B уже опубликованы с открытым исходным кодом.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
GateSquareMayTradingShare
1.09M Популярность
#
BTCBackAbove80K
59.46M Популярность
#
IsraelStrikesIranBTCPlunges
45.71K Популярность
#
JapanTokenizesGovernmentBonds
1.92M Популярность
#
#DailyPolymarketHotspot
871.37K Популярность

Закрепить

Карта сайта

Muon тихо «умер» на 25% нейронов: после восстановления Aurora эффективность данных выросла в сотни раз

Популярные темы

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

Закрепить