Фьючерсы
Доступ к сотням фьючерсов
CFD
Золото
Одна платформа мировых активов
Опционы
Hot
Торги опционами Vanilla в европейском стиле
Единый счет
Увеличьте эффективность вашего капитала
Демо-торговля
Введение в торговлю фьючерсами
Подготовьтесь к торговле фьючерсами
Фьючерсные события
Получайте награды в событиях
Демо-торговля
Используйте виртуальные средства для торговли без риска
Запуск
CandyDrop
Собирайте конфеты, чтобы заработать аирдропы
Launchpool
Быстрый стейкинг, заработайте потенциальные новые токены
HODLer Airdrop
Удерживайте GT и получайте огромные аирдропы бесплатно
Pre-IPOs
Откройте полный доступ к глобальным IPO акций
Alpha Points
Торгуйте и получайте аирдропы
Фьючерсные баллы
Зарабатывайте баллы и получайте награды аирдропа
Инвестиции
Simple Earn
Зарабатывайте проценты с помощью неиспользуемых токенов
Автоинвест.
Автоинвестиции на регулярной основе.
Бивалютные инвестиции
Доход от волатильности рынка
Мягкий стейкинг
Получайте вознаграждения с помощью гибкого стейкинга
Криптозаймы
0 Fees
Заложите одну криптовалюту, чтобы занять другую
Центр кредитования
Единый центр кредитования
Рекламные акции
AI
Gate AI
Ваш универсальный AI-ассистент для любых задач
Gate AI Bot
Используйте Gate AI прямо в вашем социальном приложении
GateClaw
Gate Синий Лобстер — готов к использованию
Gate for AI Agent
AI-инфраструктура: Gate MCP, Skills и CLI
Gate Skills Hub
Более 10 тыс навыков
От офиса до трейдинга: единая база навыков для эффективного использования ИИ
GateRouter
Умный выбор из более чем 40 моделей ИИ, без дополнительных затрат (0%)
Muon тихо «умер» на 25% нейронов: после восстановления Aurora эффективность данных выросла в сотни раз
Согласно мониторингу Beating, исследовательская команда Tilde обнаружила скрытый дефект в оптимизаторе Muon, используемом в ведущих моделях DeepSeek V4, Kimi K2.5, GLM-5 и других: он вызывает постоянную смерть более четверти нейронов в слоях MLP на ранних этапах обучения. В связи с этим команда разработала альтернативный оптимизатор Aurora и открыла его исходный код. Одномодель с 1.1 миллиарда параметров, обученная всего на примерно 100 миллиардах токенов, достигла уровня языковых задач HellaSwag, Winogrande и других, сравнимого с Qwen3-1.7B, обученной на 36 триллионах токенов.
Проблема кроется в математической особенности обработки весов MLP в Muon. На начальных этапах обучения некоторые нейроны случайно получают слабые градиенты. Традиционные оптимизаторы, такие как AdamW, проводят нормализацию по параметрам, что естественным образом сглаживает такие различия; однако шаг ортогонализации Muon передает слабые сигналы без изменений. В результате слабые нейроны продолжают получать слабое обновление, становясь всё более молчаливыми, что создает порочный круг «сильные остаются сильными». К 500-му шагу более четверти нейронов фактически умирают, что зря тратит параметры модели.
Предыдущая улучшенная версия NorMuon боролась с этим, принуждая к равномерному масштабированию обновлений по строкам, но при этом разрушала ортогональность матрицы обновлений (которая обеспечивает эффективность каждого шага и является ключевым преимуществом Muon), что снижало точность оптимизации. Aurora объединяет ограничения «равномерности обновлений» и «ортогональности», используя чередующиеся итерации для одновременного соблюдения обеих целей: обеспечивая каждому нейрону равные возможности обучения и не жертвуя точностью обновлений.
Без настройки параметров Aurora потребляет всего на 6% больше вычислительных ресурсов, чем Muon, и может полностью заменить его. В результатах оптимизации на modded-nanoGPT Aurora достигла нового рекорда за 3175 шагов. Преимущество Aurora усиливается с увеличением ширины MLP: чем выше коэффициент расширения, тем заметнее улучшение.
Код и предварительно обученная модель с 1.1 миллиарда параметров уже опубликованы.