Фьючерсы
Доступ к сотням фьючерсов
TradFi
Золото
Одна платформа мировых активов
Опционы
Hot
Торги опционами Vanilla в европейском стиле
Единый счет
Увеличьте эффективность вашего капитала
Демо-торговля
Введение в торговлю фьючерсами
Подготовьтесь к торговле фьючерсами
Фьючерсные события
Получайте награды в событиях
Демо-торговля
Используйте виртуальные средства для торговли без риска
Запуск
CandyDrop
Собирайте конфеты, чтобы заработать аирдропы
Launchpool
Быстрый стейкинг, заработайте потенциальные новые токены
HODLer Airdrop
Удерживайте GT и получайте огромные аирдропы бесплатно
Pre-IPOs
Откройте полный доступ к глобальным IPO акций
Alpha Points
Торгуйте и получайте аирдропы
Фьючерсные баллы
Зарабатывайте баллы и получайте награды аирдропа
Инвестиции
Simple Earn
Зарабатывайте проценты с помощью неиспользуемых токенов
Автоинвест.
Автоинвестиции на регулярной основе.
Бивалютные инвестиции
Доход от волатильности рынка
Мягкий стейкинг
Получайте вознаграждения с помощью гибкого стейкинга
Криптозаймы
0 Fees
Заложите одну криптовалюту, чтобы занять другую
Центр кредитования
Единый центр кредитования
Рекламные акции
AI
Gate AI
Ваш универсальный AI-ассистент для любых задач
Gate AI Bot
Используйте Gate AI прямо в вашем социальном приложении
GateClaw
Gate Синий Лобстер — готов к использованию
Gate for AI Agent
AI-инфраструктура: Gate MCP, Skills и CLI
Gate Skills Hub
Более 10 тыс навыков
От офиса до трейдинга: единая база навыков для эффективного использования ИИ
GateRouter
Умный выбор из более чем 30 моделей ИИ, без дополнительных затрат (0%)
Исследователь DeepMind предполагает, что задержка DeepSeek V4 связана с удвоением обучающих данных до 33Т, что вызвало серьезную нестабильность
Согласно мониторингу Beating, в техническом отчёте DeepSeek V4 раскрывается, что V4-Flash и V4-Pro были предварительно обучены на 32T и 33T токенов соответственно, что вдвое больше примерно 15T токенов у V3.
Отчёт признаёт, что в процессе обучения возникли «значительные проблемы с нестабильностью», повторяющиеся всплески потерь (резкое увеличение обучающей потери), причина которых — аномальные значения в слоях MoE, а механизм маршрутизации сам по себе усугубляет эти аномалии, простое откатывание не может полностью решить проблему.
DeepSeek нашёл два решения, которые уже применены в практике обучения: Anticipatory Routing (предвидящая маршрутизация), которая декуплирует вычисление маршрутизирующих индексов и обновление основной сети, активируется только при обнаружении всплеска потерь, дополнительная нагрузка — около 20%; SwiGLU Clamping, которая ограничивает активные значения в фиксированном диапазоне, прямо подавляя аномалии.
Отчёт утверждает, что оба метода эффективны, но признаёт, что «основные принципы ещё недостаточно поняты».
Исследователь Google DeepMind Сьюзан Чжан (ранее работавшая в Meta AI и OpenAI) прокомментировала, что нестабильность, вызванная удвоением объёма обучающих данных, «объясняет задержки», а оба решения она назвала «пластыри», одновременно отметив технологическую прозрачность DeepSeek.