Дослідник DeepMind припускає, що затримка DeepSeek V4 спричинена подвоєнням навчальних даних до 33Т, що викликало серйозну нестабільність

Згідно з моніторингом Beating, у технічному звіті DeepSeek V4 розкрито, що V4-Flash і V4-Pro відповідно передтреновані на 32T і 33T токенах, що вдвічі більше, ніж приблизно 15T токенів у V3.
Звіт зізнається, що під час тренування виникли «значні проблеми з нестабільністю», повторювалися сплески втрат (раптове зростання тренувальних втрат), причиною яких були аномальні значення у шарі MoE, а сама маршрутизаційна механіка ще більше ускладнювала ці аномалії, просте повернення назад не могло їх повністю вирішити.

DeepSeek знайшов два рішення і вже застосував їх у практичному тренуванні: Anticipatory Routing (прогнозована маршрутизація), яка роз’єднує обчислення індексів маршрутизації та оновлення основної мережі, активується автоматично лише при виявленні сплесків втрат, додаткові витрати складають близько 20%; SwiGLU Clamping, яка обмежує значення активації у фіксованому діапазоні, безпосередньо пригнічуючи аномалії.
Звіт стверджує, що обидва методи ефективні, але визнає, що «принципи їх роботи ще недостатньо зрозумілі».

Дослідник Google DeepMind Сьюзен Чжан (раніше працювала у Meta AI та OpenAI) прокоментувала, що нестабільність, викликана подвоєнням обсягу тренувальних даних, «пояснює затримки», а обидва рішення вона назвала «пластирями», одночасно похваливши технічну прозорість DeepSeek.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити