DeepSeek V4 удваивает количество токенов по сравнению с V3, сталкиваясь с нестабильностью из-за выбросов MoE и пиков, вызванных маршрутизацией; два исправления — Предварительное маршрутизирование (потеря-спуск, примерно на 20% дополнительных вычислений) и Ограничение SwiGLU (ограничение активации) — решают проблемы, хотя принципы остаются неясными. Чжан называет их пластырями, но прозрачными.Аннотация: В этом отчёте подводятся итоги проблем обучения DeepSeek V4 и стратегий их устранения. V4-Flash и V4-Pro были предварительно обучены на 32Т и 33Т токенах, примерно вдвое больше, чем у V3 (~15Т), и испытывали значительную нестабильность из-за выбросов в процессе маршрутизации MoE, с пиками потерь и неэффективными откатами. Предварительное маршрутизирование отделяет обновление маршрутизирующего индекса от обучения основной модели и активируется автоматически при пиках потерь, примерно на 20% дополнительных вычислений; Ограничение SwiGLU ограничивает активации в фиксированном диапазоне, чтобы подавить выбросы. Оба метода оказались эффективными, хотя их основные принципы остаются не полностью понятными. Сюзан Чжан из Google DeepMind назвала эти изменения прагматичными пластырями, при этом похвалив прозрачность проекта.

AirdropBlackHole

2026-04-27 02:14:01

Генерация тезисов в процессе

Согласно мониторингу Dongcha Beating, технический отчет по DeepSeek V4 показывает, что V4-Flash и V4-Pro были предварительно обучены на 32T и 33T токенов соответственно, что вдвое превышает примерно 15T токенов, использованных в V3. В отчете признается, что процесс обучения столкнулся с «значительными проблемами нестабильности», с повторяющимися скачками потерь (внезапными увеличениями потерь при обучении), вызванными выбросами в слое MoE, а сама маршрутизация усугубляла эти выбросы, делая простое откатывание неэффективным. DeepSeek выявила два решения, применяемых на практике: Предварительное маршрутизирование, которое отделяет вычисление маршрутизирующего индекса от обновлений основной сети и автоматически активируется только при обнаружении скачка потерь, при этом добавляя примерно 20% дополнительных затрат; и Ограничение SwiGLU, которое ограничивает значения активации в фиксированном диапазоне для прямого подавления выбросов. В отчете говорится, что оба метода эффективны, но признается, что «принципы их работы еще полностью не поняты». Исследователь Google DeepMind Сьюзан Чжан, ранее работавшая в Meta AI и OpenAI, прокомментировала, что нестабильность, вызванная удвоением объема данных для обучения, «объясняет задержку», описывая эти два решения как «пластыри», при этом подтверждая техническую прозрачность DeepSeek.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
WCTCTradingKingPK
288.43K Популярность
#
比特币Breaks79K
11.69M Популярность
#
IsraelStrikesIranBTCPlunges
34.47K Популярность
#
CryptoMarketsRiseBroadly
94.74K Популярность
#
WHCADinnerShootingIncident
18K Популярность

Закрепить

Карта сайта

Исследователь DeepMind высказывает предположения о задержке DeepSeek V4: удвоение обучающих данных до 33T вызывает сильную нестабильность

Популярные темы

WCTCTradingKingPK

比特币Breaks79K

IsraelStrikesIranBTCPlunges

CryptoMarketsRiseBroadly

WHCADinnerShootingIncident

Закрепить