Згідно з моніторингом Beating, аспірант Прінстонського університету Yifan Zhang оновив технічні деталі DeepSeek V4 на X. Він 19 квітня анонсував «V4 наступного тижня» та назвав три компоненти архітектури, а сьогодні ввечері опублікував повний список параметрів, а також вперше розкрив існування легкої версії V4-Lite з 285 мільярдами параметрів.

Загальний обсяг V4 становить 1.6 трильйона. Механізм уваги — DSA2, який поєднує раніше використовувані в V3.2 схеми розрідженої уваги DeepSeek (DeepSeek Sparse Attention) та запропоновану на початку цього року NSA (Native Sparse Attention), обидві — схеми розрідженої уваги, head-dim 512, у поєднанні з Sparse MQA та SWA (скользяча увага вікна). Шар MoE має 384 експерти, активується щонайменше 6 одночасно, з використанням Fused MoE Mega-Kernel. Залізні з’єднання залишаються на основі Hyper-Connections.

Деталі, вперше розкриті під час тренування, включають: оптимізатор Muon (тип матричного оптимізатора, який застосовує ортогоналізацію Newton-Schulz до оновлення імпульсу), довжину контексту передтренування 32K, на етапі підкріплювального навчання використовується GRPO з додаванням KL-розбіжності для корекції. Остаточна довжина контексту розширена до 1 мільйона. Модаль — чистий текст.

Zhang не займає посаду в DeepSeek, офіційні представники DeepSeek не коментували цю інформацію.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
Gate13thAnniversaryLive
1.16M Популярність
#
WCTCTradingChallengeShare8MUSDT
784.12K Популярність
#
BitcoinBouncesBack
202.72K Популярність
#
IsraelStrikesIranBTCPlunges
30.66K Популярність
#
USIranTalksProgress
787.75K Популярність

Закріпити

карта сайту

Yifan Zhang розкриває повну технічну специфікацію DeepSeek V4: 1,6T параметрів, 384 експертів активують 6

Популярні теми

Gate13thAnniversaryLive

WCTCTradingChallengeShare8MUSDT

BitcoinBouncesBack

IsraelStrikesIranBTCPlunges

USIranTalksProgress

Закріпити