Yifan Zhang розкриває повну технічну специфікацію DeepSeek V4: 1,6T параметрів, 384 експертних активацій для 6

robot
Генерація анотацій у процесі
ME Новини повідомляють, 22 квітня (UTC+8), згідно з моніторингом Датчі Beating, що аспірант Прінстонського університету Yifan Zhang оновив технічні деталі DeepSeek V4 у X. 19 квітня він анонсував «V4 наступного тижня» та назвав три компоненти архітектури, а сьогодні оприлюднив повний список параметрів, а також вперше розкрив існування легкої версії V4-Lite з 285 мільярдами параметрів. Загальна кількість параметрів V4 становить 1,6 трильйона. Механізм уваги — DSA2, який поєднує раніше в V3.2 використані DeepSeek Sparse Attention (DSA) та запропоновану на початку цього року статтю Native Sparse Attention (NSA), обидва — схеми розрідженої уваги, з head-dim 512, у поєднанні з Sparse MQA та SWA (скользяча увага вікна). Шар MoE має 384 експерти, кожен раз активується 6, з використанням Fused MoE Mega-Kernel. Залізні з’єднання залишаються на основі Hyper-Connections. Деталі, вперше розкриті під час тренування, включають: оптимізатор Muon (тип матричного оптимізатора, що застосовує ортогоналізацію Newton-Schulz до оновлення імпульсу), довжину контексту передтренування 32K, на етапі підкріплювального навчання використовується GRPO з додаванням KL-розбіжності для корекції. Остаточна довжина контексту розширена до 1 мільйона. Модальність — чистий текст. Zhang не працює у DeepSeek, офіційна команда DeepSeek не дала коментарів щодо цієї інформації. (Джерело: BlockBeats)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено