Исследователь DeepMind предполагает, что задержка DeepSeek V4 связана с удвоением обучающих данных до 33Т, что вызвало серьезную нестабильность

Согласно мониторингу Beating, в техническом отчёте DeepSeek V4 раскрывается, что V4-Flash и V4-Pro были предварительно обучены на 32T и 33T токенов соответственно, что вдвое больше примерно 15T токенов у V3.
Отчёт признаёт, что в процессе обучения возникли «значительные проблемы с нестабильностью», повторяющиеся всплески потерь (резкое увеличение обучающей потери), причина которых — аномальные значения в слоях MoE, а механизм маршрутизации сам по себе усугубляет эти аномалии, простое откатывание не может полностью решить проблему.

DeepSeek нашёл два решения, которые уже применены в практике обучения: Anticipatory Routing (предвидящая маршрутизация), которая декуплирует вычисление маршрутизирующих индексов и обновление основной сети, активируется только при обнаружении всплеска потерь, дополнительная нагрузка — около 20%; SwiGLU Clamping, которая ограничивает активные значения в фиксированном диапазоне, прямо подавляя аномалии.
Отчёт утверждает, что оба метода эффективны, но признаёт, что «основные принципы ещё недостаточно поняты».

Исследователь Google DeepMind Сьюзан Чжан (ранее работавшая в Meta AI и OpenAI) прокомментировала, что нестабильность, вызванная удвоением объёма обучающих данных, «объясняет задержки», а оба решения она назвала «пластыри», одновременно отметив технологическую прозрачность DeepSeek.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить