ME Новости, 22 апреля (UTC+8), согласно мониторингу 动察 Beating, аспирант Принстонского университета Yifan Zhang обновил технические детали DeepSeek V4 в X. Он анонсировал «V4 на следующей неделе» 19 апреля и перечислил три названия архитектурных компонентов, сегодня предоставил полный список параметров, а также впервые раскрыл существование облегчённой версии V4-Lite с 285 миллиардов параметров. Общий размер V4 составляет 1.6 триллиона. Механизм внимания — DSA2, сочетающий ранее в V3.2 использованные DeepSeek Sparse Attention (DSA) и предложенные в начале этого года NSA (Native Sparse Attention), два варианта разреженного внимания, с head-dim 512, в сочетании с Sparse MQA и SWA (скользящее окно внимания). MoE слой содержит 384 эксперта, активируется по 6 одновременно, использует Fused MoE Mega-Kernel. Остаточные связи продолжают использовать Hyper-Connections. Детали, впервые раскрытые в процессе обучения, включают: оптимизатор Muon (тип матричного оптимизатора, применяющего ортогонализацию Newton-Schulz к обновлению моментов), длину предобучающего контекста 32K, на этапе обучения с усилением — GRPO с добавлением KL-дивергенции для коррекции. Итоговая длина контекста увеличена до 1 миллиона. Модальность — чистый текст. Zhang не занимает должность в DeepSeek, официальные представители DeepSeek не комментировали указанную информацию. (Источник: BlockBeats)

DEEPSEEK3,42%

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
MyGateTradeStory
1,24M Популярность
#
IsraelStrikesIranBTCPlunges
61,79K Популярность
#
PredictWorldCup🇺🇸vs🇵🇾
892,07K Популярность
#
TradFiCFDGoldMaster
2,08M Популярность
#
SpaceXPlunges16%MarketCapErodes400B
2M Популярность

Закреплено

Карта сайта

Yifan Zhang раскрывает полные технические характеристики DeepSeek V4: 1,6 трлн параметров, 384 эксперта для активации 6

Популярные темы

MyGateTradeStory

IsraelStrikesIranBTCPlunges

PredictWorldCup🇺🇸vs🇵🇾

TradFiCFDGoldMaster

SpaceXPlunges16%MarketCapErodes400B

Закреплено