На платформе X доктор аспирант Принстона Чжан раскрыл основные моменты DeepSeek V4: V4/V4-Lite имеют соответственно 285 миллиардов и 1,6 триллиона параметров, используют разреженное внимание DSA2 (DSA+NSA), head-dim512, Sparse MQA и SWA, MoE с 384 экспертами, активирующимися по 6 одновременно, в сочетании с Fused Mega-Kernel и Hyper-Connections. Обучение проводится с помощью оптимизатора Muon, контекст до 32K, этап RL с коррекцией GRPO+KL, в конечном итоге расширяя контекст до 1 миллиона. Модель работает с чистым текстом; Чжан не является сотрудником DeepSeek, официальных комментариев не последовало.

MeNews

2026-04-22 16:20:18

Генерация тезисов в процессе

МЕ Новости, 22 апреля (UTC+8), согласно мониторингу 动察 Beating, аспирант Принстона Yifan Zhang обновил технические детали DeepSeek V4 в X. Он 19 апреля анонсировал «V4 на следующей неделе» и перечислил три названия архитектурных компонентов, сегодня был опубликован полный список параметров, а также впервые раскрыта существующая облегчённая версия V4-Lite с 285 миллиардов параметров. Общий размер V4 составляет 1,6 триллиона. Механизм внимания — DSA2, сочетающий ранее в V3.2 использованные DeepSeek Sparse Attention (DSA) и в начале этого года предложенную в статье Native Sparse Attention (NSA), два варианта разреженного внимания, head-dim 512, в сочетании с Sparse MQA и SWA (скользящее окно внимания). MoE слой содержит 384 эксперта, активируется по 6 одновременно, использует Fused MoE Mega-Kernel. Остаточные соединения продолжают использовать Hyper-Connections. Детали, впервые раскрытые на этапе обучения, включают: оптимизатор Muon (тип матричного оптимизатора, применяющего ортогонализацию Newton-Schulz к обновлению моментов), длину предварительного контекста 32K, на этапе обучения с усиленным обучением используется GRPO с добавлением KL-дивергенции для коррекции. Итоговая длина контекста увеличена до 1 миллиона. Модальность — чистый текст. Zhang не занимает должность в DeepSeek, официальные представители DeepSeek не прокомментировали указанную информацию. (Источник: BlockBeats)

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
Gate13thAnniversaryLive
1.19M Популярность
#
WCTCTradingChallengeShare8MUSDT
792.05K Популярность
#
BitcoinBouncesBack
207.57K Популярность
#
IsraelStrikesIranBTCPlunges
30.66K Популярность
#
EthereumMemeSeasonReturns
2M Популярность

Закрепить

Карта сайта

Yifan Zhang раскрывает полные технические характеристики DeepSeek V4: 1,6 трлн параметров, 384 эксперта для активации 6

Популярные темы

Gate13thAnniversaryLive

WCTCTradingChallengeShare8MUSDT

BitcoinBouncesBack

IsraelStrikesIranBTCPlunges

EthereumMemeSeasonReturns

Закрепить