ME Новини повідомляють, 22 квітня (UTC+8), згідно з моніторингом Датчі Beating, що аспірант Прінстонського університету Yifan Zhang оновив технічні деталі DeepSeek V4 у X. 19 квітня він анонсував «V4 наступного тижня» та назвав три компоненти архітектури, а сьогодні оприлюднив повний список параметрів, а також вперше розкрив існування легкої версії V4-Lite з 285 мільярдами параметрів. Загальна кількість параметрів V4 становить 1,6 трильйона. Механізм уваги — DSA2, який поєднує раніше в V3.2 використані DeepSeek Sparse Attention (DSA) та запропоновану на початку цього року статтю Native Sparse Attention (NSA), обидва — схеми розрідженої уваги, з head-dim 512, у поєднанні з Sparse MQA та SWA (скользяча увага вікна). Шар MoE має 384 експерти, кожен раз активується 6, з використанням Fused MoE Mega-Kernel. Залізні з’єднання залишаються на основі Hyper-Connections. Деталі, вперше розкриті під час тренування, включають: оптимізатор Muon (тип матричного оптимізатора, що застосовує ортогоналізацію Newton-Schulz до оновлення імпульсу), довжину контексту передтренування 32K, на етапі підкріплювального навчання використовується GRPO з додаванням KL-розбіжності для корекції. Остаточна довжина контексту розширена до 1 мільйона. Модальність — чистий текст. Zhang не працює у DeepSeek, офіційна команда DeepSeek не дала коментарів щодо цієї інформації. (Джерело: BlockBeats)

DEEPSEEK3,42%

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
MyGateTradeStory
1,23M Популярність
#
IsraelStrikesIranBTCPlunges
61,79K Популярність
#
PredictWorldCup🇺🇸vs🇵🇾
892,07K Популярність
#
TradFiCFDGoldMaster
2,08M Популярність
#
SpaceXPlunges16%MarketCapErodes400B
2M Популярність

Закріплено

карта сайту

Yifan Zhang розкриває повну технічну специфікацію DeepSeek V4: 1,6T параметрів, 384 експертних активацій для 6

Популярні теми

MyGateTradeStory

IsraelStrikesIranBTCPlunges

PredictWorldCup🇺🇸vs🇵🇾

TradFiCFDGoldMaster

SpaceXPlunges16%MarketCapErodes400B

Закріплено