Исследования показали, что оптимизатор Muon в ранней стадии обучения вызывает постоянную смерть некоторых нейронов MLP, из-за того, что его ортогонализация сохраняет слабые сигналы. Aurora балансирует оба аспекта, одновременно ограничивая обновление и равномерность, а также используя чередующиеся итерации, чтобы избежать смерти и повысить эффективность. Без настройки параметров Aurora требует всего на 6% больше вычислительных затрат, чем Muon, и при обучении модели 1.1B достигает уровня, близкого к Qwen3-1.7B, обученной на примерно 100B токенов и с 36T параметров; код и модель уже открыты.

BlockBeatNews

2026-05-10 04:07:30

Генерация тезисов в процессе

Согласно мониторингу Beating, исследовательская команда Tilde обнаружила скрытый дефект в оптимизаторе Muon, используемом в ведущих моделях DeepSeek V4, Kimi K2.5, GLM-5 и других: он вызывает постоянную смерть более четверти нейронов в слоях MLP на ранних этапах обучения. В связи с этим команда разработала альтернативный оптимизатор Aurora и открыла его исходный код. Одномодель с 1.1 миллиарда параметров, обученная всего на примерно 100 миллиардах токенов, достигла уровня языковых задач HellaSwag, Winogrande и других, сравнимого с Qwen3-1.7B, обученной на 36 триллионах токенов.

Проблема кроется в математической особенности обработки весов MLP в Muon. На начальных этапах обучения некоторые нейроны случайно получают слабые градиенты. Традиционные оптимизаторы, такие как AdamW, проводят нормализацию по параметрам, что естественным образом сглаживает такие различия; однако шаг ортогонализации Muon передает слабые сигналы без изменений. В результате слабые нейроны продолжают получать слабое обновление, становясь всё более молчаливыми, что создает порочный круг «сильные остаются сильными». К 500-му шагу более четверти нейронов фактически умирают, что зря тратит параметры модели.

Предыдущая улучшенная версия NorMuon боролась с этим, принуждая к равномерному масштабированию обновлений по строкам, но при этом разрушала ортогональность матрицы обновлений (которая обеспечивает эффективность каждого шага и является ключевым преимуществом Muon), что снижало точность оптимизации. Aurora объединяет ограничения «равномерности обновлений» и «ортогональности», используя чередующиеся итерации для одновременного соблюдения обеих целей: обеспечивая каждому нейрону равные возможности обучения и не жертвуя точностью обновлений.

Без настройки параметров Aurora потребляет всего на 6% больше вычислительных ресурсов, чем Muon, и может полностью заменить его. В результатах оптимизации на modded-nanoGPT Aurora достигла нового рекорда за 3175 шагов. Преимущество Aurora усиливается с увеличением ширины MLP: чем выше коэффициент расширения, тем заметнее улучшение.

Код и предварительно обученная модель с 1.1 миллиарда параметров уже опубликованы.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
GateSquareMayTradingShare
1.05M Популярность
#
BTCBackAbove80K
59.45M Популярность
#
IsraelStrikesIranBTCPlunges
45.63K Популярность
#
JapanTokenizesGovernmentBonds
1.9M Популярность
#
#DailyPolymarketHotspot
870.63K Популярность

Закрепить

Карта сайта

Muon тихо «умер» на 25% нейронов: после восстановления Aurora эффективность данных выросла в сотни раз

Популярные темы

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

Закрепить