Исследователь DeepMind высказывает предположения о задержке DeepSeek V4: удвоение обучающих данных до 33T вызывает сильную нестабильность

robot
Генерация тезисов в процессе

Согласно мониторингу Dongcha Beating, технический отчет по DeepSeek V4 показывает, что V4-Flash и V4-Pro были предварительно обучены на 32T и 33T токенов соответственно, что вдвое превышает примерно 15T токенов, использованных в V3. В отчете признается, что процесс обучения столкнулся с «значительными проблемами нестабильности», с повторяющимися скачками потерь (внезапными увеличениями потерь при обучении), вызванными выбросами в слое MoE, а сама маршрутизация усугубляла эти выбросы, делая простое откатывание неэффективным. DeepSeek выявила два решения, применяемых на практике: Предварительное маршрутизирование, которое отделяет вычисление маршрутизирующего индекса от обновлений основной сети и автоматически активируется только при обнаружении скачка потерь, при этом добавляя примерно 20% дополнительных затрат; и Ограничение SwiGLU, которое ограничивает значения активации в фиксированном диапазоне для прямого подавления выбросов. В отчете говорится, что оба метода эффективны, но признается, что «принципы их работы еще полностью не поняты». Исследователь Google DeepMind Сьюзан Чжан, ранее работавшая в Meta AI и OpenAI, прокомментировала, что нестабильность, вызванная удвоением объема данных для обучения, «объясняет задержку», описывая эти два решения как «пластыри», при этом подтверждая техническую прозрачность DeepSeek.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить