DeepSeek V4 подвоює кількість токенів порівняно з V3, стикаючись з нестабільністю через аномалії MoE та сплески, викликані маршрутизацією; два рішення—Передбачуване маршрутування (з тригером втрат, ~20% додаткових обчислень) та Обмеження SwiGLU (обмеження активації)—вирішують проблеми, хоча принципи залишаються незрозумілими. Чжан називає їх пластирями, але прозорими.Анотація: Цей звіт підсумовує виклики у тренуванні DeepSeek V4 та стратегії їх подолання. V4-Flash і V4-Pro були попередньо натреновані на 32Т і 33Т токенах, приблизно подвоюючи ~15Т V3, і стикнулися з значною нестабільністю через аномалії у процесі маршрутизації MoE, з різкими сплесками втрат і неефективними відкатами. Передбачуване маршрутування відокремлює оновлення індексів маршрутизації від тренування основної моделі і активується автоматично при сплесках втрат, приблизно на 20% додаткових обчислень; Обмеження SwiGLU обмежує активації до фіксованого діапазону, щоб пригнічувати аномалії. Обидва методи були ефективними, хоча їхні основні принципи залишаються не до кінця зрозумілими. Сюзан Чжан з Google DeepMind назвала ці зміни прагматичними пластирами, водночас хвалячи прозорість проекту.

AirdropBlackHole

2026-04-27 02:14:01

Генерація анотацій у процесі

Згідно з моніторингом Dongcha Beating, технічний звіт для DeepSeek V4 показує, що V4-Flash і V4-Pro були попередньо навчені на 32T і 33T токенів відповідно, що вдвічі більше приблизно ніж 15T токенів, використаних у V3. У звіті визнається, що процес навчання стикнувся з «значними проблемами нестабільності», з повторюваними сплесками втрат (раптове зростання втрат під час навчання), що пов’язано з аутлайерами у шарі MoE, а сама маршрутизація ще більше ускладнює ці аутлайери, роблячи прості відкатки неефективними. DeepSeek визначила два рішення, які були застосовані у реальному навчанні: Передбачуване маршрутизування, яке роз’єднує обчислення індексів маршрутизації від оновлень основної мережі і автоматично активується лише при виявленні сплеску втрат, що додає приблизно 20% додаткових витрат; та SwiGLU Clamping, яке обмежує значення активації у фіксованому діапазоні для безпосереднього придушення аутлайерів. У звіті зазначається, що обидва методи є ефективними, але визнається, що «принципи, що лежать в основі, ще не повністю зрозумілі». Дослідниця Google DeepMind Сюзан Чжан, яка раніше працювала в Meta AI та OpenAI, прокоментувала, що нестабільність, спричинена подвоєнням обсягу даних для навчання, «пояснює затримку», описуючи ці два рішення як «ліки», водночас підтверджуючи технічну прозорість DeepSeek.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
WCTCTradingKingPK
296.85K Популярність
#
比特币Breaks79K
11.69M Популярність
#
IsraelStrikesIranBTCPlunges
34.64K Популярність
#
CryptoMarketsRiseBroadly
98.53K Популярність
#
WHCADinnerShootingIncident
22.08K Популярність

Закріпити

карта сайту

Дослідник DeepMind висловлює припущення щодо затримки DeepSeek V4: обсяг навчальних даних подвоєно до 33 трильйонів, що спричинило серйозну нестабільність

Популярні теми

WCTCTradingKingPK

比特币Breaks79K

IsraelStrikesIranBTCPlunges

CryptoMarketsRiseBroadly

WHCADinnerShootingIncident

Закріпити