Фьючерсы
Доступ к сотням фьючерсов
CFD
Золото
Одна платформа мировых активов
Опционы
Hot
Торги опционами Vanilla в европейском стиле
Единый счет
Увеличьте эффективность вашего капитала
Демо-торговля
Введение в торговлю фьючерсами
Подготовьтесь к торговле фьючерсами
Фьючерсные события
Получайте награды в событиях
Демо-торговля
Используйте виртуальные средства для торговли без риска
Запуск
CandyDrop
Собирайте конфеты, чтобы заработать аирдропы
Launchpool
Быстрый стейкинг, заработайте потенциальные новые токены
HODLer Airdrop
Удерживайте GT и получайте огромные аирдропы бесплатно
Pre-IPOs
Откройте полный доступ к глобальным IPO акций
Alpha Points
Торгуйте и получайте аирдропы
Фьючерсные баллы
Зарабатывайте баллы и получайте награды аирдропа
Инвестиции
Simple Earn
Зарабатывайте проценты с помощью неиспользуемых токенов
Автоинвест.
Автоинвестиции на регулярной основе.
Бивалютные инвестиции
Доход от волатильности рынка
Мягкий стейкинг
Получайте вознаграждения с помощью гибкого стейкинга
Криптозаймы
0 Fees
Заложите одну криптовалюту, чтобы занять другую
Центр кредитования
Единый центр кредитования
Рекламные акции
AI
Gate AI
Ваш универсальный AI-ассистент для любых задач
Gate AI Bot
Используйте Gate AI прямо в вашем социальном приложении
GateClaw
Gate Синий Лобстер — готов к использованию
Gate for AI Agent
AI-инфраструктура: Gate MCP, Skills и CLI
Gate Skills Hub
Более 10 тыс навыков
От офиса до трейдинга: единая база навыков для эффективного использования ИИ
GateRouter
Умный выбор из более чем 40 моделей ИИ, без дополнительных затрат (0%)
Muon тихо «умер» на 25% нейронов: после восстановления Aurora эффективность данных выросла в сотни раз
По данным мониторинга Beating, исследовательская команда Tilde обнаружила скрытый дефект в оптимизаторе Muon, используемом в ведущих моделях DeepSeek V4, Kimi K2.5, GLM-5 и других: он вызывает постоянную смерть более четверти нейронов в слоях MLP на ранних этапах обучения. На основе этого команда разработала альтернативный оптимизатор Aurora и выпустила его с открытым исходным кодом. Одномодельный 1.1B всего за примерно 100B токенов достиг уровня, сравнимого с Qwen3-1.7B, обученной на 36T токенов, на задачах понимания языка HellaSwag, Winogrande и других.
Проблема кроется в математической особенности обработки весовых матриц MLP в Muon. В начале обучения некоторые нейроны случайно получают слабый градиентный сигнал. Традиционные оптимизаторы, такие как AdamW, нормализуют параметры по мере обновления, сглаживая такие различия; однако шаг ортогонализации Muon передает слабый сигнал без изменений. В результате слабые нейроны продолжают получать слабое обновление, становясь всё более молчаливыми, что создает порочный круг «сильные становятся сильнее». К 500-му шагу более четверти нейронов фактически умирают, что зря тратит параметры модели.
Ранее предложенная версия NorMuon пыталась решить проблему, принудительно выравнивая амплитуду обновлений по строкам, но это разрушало ортогональность матрицы обновлений (которая делает каждый шаг максимально эффективным и является ключевым преимуществом Muon), что снижало точность оптимизации.
Aurora объединяет ограничения «равномерности обновлений» и «ортогональности», используя чередующиеся итерации для одновременного соблюдения обеих целей: обеспечивая каждому нейрону равные возможности обучения и не жертвуя точностью обновлений.
Без настройки параметров Aurora требует всего на 6% больше вычислительных ресурсов по сравнению с Muon и может быть использована как замена. В тестах на оптимизацию modded-nanoGPT Aurora достигла нового рекорда за 3175 шагов.
Преимущества Aurora усиливаются с увеличением ширины MLP: чем выше коэффициент расширения, тем заметнее улучшение.
Код и предварительно обученная модель 1.1B уже опубликованы с открытым исходным кодом.