Дослідник DeepMind висловлює припущення щодо затримки DeepSeek V4: обсяг навчальних даних подвоєно до 33 трильйонів, що спричинило серйозну нестабільність

robot
Генерація анотацій у процесі

Згідно з моніторингом Dongcha Beating, технічний звіт для DeepSeek V4 показує, що V4-Flash і V4-Pro були попередньо навчені на 32T і 33T токенів відповідно, що вдвічі більше приблизно ніж 15T токенів, використаних у V3. У звіті визнається, що процес навчання стикнувся з «значними проблемами нестабільності», з повторюваними сплесками втрат (раптове зростання втрат під час навчання), що пов’язано з аутлайерами у шарі MoE, а сама маршрутизація ще більше ускладнює ці аутлайери, роблячи прості відкатки неефективними. DeepSeek визначила два рішення, які були застосовані у реальному навчанні: Передбачуване маршрутизування, яке роз’єднує обчислення індексів маршрутизації від оновлень основної мережі і автоматично активується лише при виявленні сплеску втрат, що додає приблизно 20% додаткових витрат; та SwiGLU Clamping, яке обмежує значення активації у фіксованому діапазоні для безпосереднього придушення аутлайерів. У звіті зазначається, що обидва методи є ефективними, але визнається, що «принципи, що лежать в основі, ще не повністю зрозумілі». Дослідниця Google DeepMind Сюзан Чжан, яка раніше працювала в Meta AI та OpenAI, прокоментувала, що нестабільність, спричинена подвоєнням обсягу даних для навчання, «пояснює затримку», описуючи ці два рішення як «ліки», водночас підтверджуючи технічну прозорість DeepSeek.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити