Yifan Zhang розкриває повну технічну специфікацію DeepSeek V4: 1,6T параметрів, 384 експертів активують 6

robot
Генерація анотацій у процесі

Згідно з моніторингом Beating, аспірант Прінстонського університету Yifan Zhang оновив технічні деталі DeepSeek V4 на X. Він 19 квітня анонсував «V4 наступного тижня» та назвав три компоненти архітектури, а сьогодні ввечері опублікував повний список параметрів, а також вперше розкрив існування легкої версії V4-Lite з 285 мільярдами параметрів.

Загальний обсяг V4 становить 1.6 трильйона. Механізм уваги — DSA2, який поєднує раніше використовувані в V3.2 схеми розрідженої уваги DeepSeek (DeepSeek Sparse Attention) та запропоновану на початку цього року NSA (Native Sparse Attention), обидві — схеми розрідженої уваги, head-dim 512, у поєднанні з Sparse MQA та SWA (скользяча увага вікна). Шар MoE має 384 експерти, активується щонайменше 6 одночасно, з використанням Fused MoE Mega-Kernel. Залізні з’єднання залишаються на основі Hyper-Connections.

Деталі, вперше розкриті під час тренування, включають: оптимізатор Muon (тип матричного оптимізатора, який застосовує ортогоналізацію Newton-Schulz до оновлення імпульсу), довжину контексту передтренування 32K, на етапі підкріплювального навчання використовується GRPO з додаванням KL-розбіжності для корекції. Остаточна довжина контексту розширена до 1 мільйона. Модаль — чистий текст.

Zhang не займає посаду в DeepSeek, офіційні представники DeepSeek не коментували цю інформацію.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити