Согласно мониторингу Beating, аспирант Принстона Yifan Zhang обновил технические детали DeepSeek V4 на платформе X. Он анонсировал «V4 на следующей неделе» 19 апреля и перечислил три названия архитектурных компонентов, а сегодня вечером предоставил полный список параметров, а также впервые раскрыл существование облегчённой версии V4-Lite с 285 миллиардами параметров.

Общий размер V4 составляет 1,6 триллиона. Механизм внимания — DSA2, сочетающий ранее использованные в V3.2 схемы разреженного внимания DeepSeek (DeepSeek Sparse Attention) и предложенную в начале этого года NSA (Native Sparse Attention), две схемы разреженного внимания, с размером головы 512, в сочетании с Sparse MQA и SWA (скользящее окно внимания). В слое MoE всего 384 эксперта, активируется по 6 одновременно, используется Fused MoE Mega-Kernel. Остаточные связи продолжают использовать Hyper-Connections.

Первичные раскрытые детали обучения включают: оптимизатор Muon (тип матричного оптимизатора, применяющего ортогонализацию Newton-Schulz к обновлению импульса), длину предварительного контекста 32K, на этапе обучения с усилением — GRPO с добавлением KL-дивергенции для коррекции. Итоговая длина контекста увеличена до 1 миллиона. Модаль — чистый текст.

Zhang не занимает должность в DeepSeek, официальные представители DeepSeek не прокомментировали указанную информацию.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
Gate13thAnniversaryLive
1.16M Популярность
#
WCTCTradingChallengeShare8MUSDT
781.69K Популярность
#
BitcoinBouncesBack
201.57K Популярность
#
IsraelStrikesIranBTCPlunges
30.62K Популярность
#
USIranTalksProgress
786.57K Популярность

Закрепить

Карта сайта

Yifan Zhang раскрывает полные технические характеристики DeepSeek V4: 1,6T параметров, 384 эксперта для активации 6

Популярные темы

Gate13thAnniversaryLive

WCTCTradingChallengeShare8MUSDT

BitcoinBouncesBack

IsraelStrikesIranBTCPlunges

USIranTalksProgress

Закрепить