Согласно мониторингу Beating, в техническом отчёте DeepSeek V4 раскрывается, что V4-Flash и V4-Pro были предварительно обучены на 32T и 33T токенов соответственно, что вдвое больше примерно 15T токенов у V3.
Отчёт признаёт, что в процессе обучения возникли «значительные проблемы с нестабильностью», повторяющиеся всплески потерь (резкое увеличение обучающей потери), причина которых — аномальные значения в слоях MoE, а механизм маршрутизации сам по себе усугубляет эти аномалии, простое откатывание не может полностью решить проблему.

DeepSeek нашёл два решения, которые уже применены в практике обучения: Anticipatory Routing (предвидящая маршрутизация), которая декуплирует вычисление маршрутизирующих индексов и обновление основной сети, активируется только при обнаружении всплеска потерь, дополнительная нагрузка — около 20%; SwiGLU Clamping, которая ограничивает активные значения в фиксированном диапазоне, прямо подавляя аномалии.
Отчёт утверждает, что оба метода эффективны, но признаёт, что «основные принципы ещё недостаточно поняты».

Исследователь Google DeepMind Сьюзан Чжан (ранее работавшая в Meta AI и OpenAI) прокомментировала, что нестабильность, вызванная удвоением объёма обучающих данных, «объясняет задержки», а оба решения она назвала «пластыри», одновременно отметив технологическую прозрачность DeepSeek.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
WCTCTradingKingPK
171.91K Популярность
#
CryptoMarketSeesVolatility
233.21K Популярность
#
IsraelStrikesIranBTCPlunges
31.93K Популярность
#
rsETHAttackUpdate
76.63K Популярность
#
US-IranTalksStall
188.78K Популярность

Закрепить

Карта сайта

Исследователь DeepMind предполагает, что задержка DeepSeek V4 связана с удвоением обучающих данных до 33Т, что вызвало серьезную нестабильность

Популярные темы

WCTCTradingKingPK

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Закрепить