Згідно з моніторингом Beating, у технічному звіті DeepSeek V4 розкрито, що V4-Flash і V4-Pro відповідно передтреновані на 32T і 33T токенах, що вдвічі більше, ніж приблизно 15T токенів у V3.
Звіт зізнається, що під час тренування виникли «значні проблеми з нестабільністю», повторювалися сплески втрат (раптове зростання тренувальних втрат), причиною яких були аномальні значення у шарі MoE, а сама маршрутизаційна механіка ще більше ускладнювала ці аномалії, просте повернення назад не могло їх повністю вирішити.

DeepSeek знайшов два рішення і вже застосував їх у практичному тренуванні: Anticipatory Routing (прогнозована маршрутизація), яка роз’єднує обчислення індексів маршрутизації та оновлення основної мережі, активується автоматично лише при виявленні сплесків втрат, додаткові витрати складають близько 20%; SwiGLU Clamping, яка обмежує значення активації у фіксованому діапазоні, безпосередньо пригнічуючи аномалії.
Звіт стверджує, що обидва методи ефективні, але визнає, що «принципи їх роботи ще недостатньо зрозумілі».

Дослідник Google DeepMind Сьюзен Чжан (раніше працювала у Meta AI та OpenAI) прокоментувала, що нестабільність, викликана подвоєнням обсягу тренувальних даних, «пояснює затримки», а обидва рішення вона назвала «пластирями», одночасно похваливши технічну прозорість DeepSeek.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
WCTCTradingKingPK
168.88K Популярність
#
CryptoMarketSeesVolatility
231.82K Популярність
#
IsraelStrikesIranBTCPlunges
31.91K Популярність
#
rsETHAttackUpdate
74.32K Популярність
#
US-IranTalksStall
180.25K Популярність

Закріпити

карта сайту

Дослідник DeepMind припускає, що затримка DeepSeek V4 спричинена подвоєнням навчальних даних до 33Т, що викликало серйозну нестабільність

Популярні теми

WCTCTradingKingPK

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Закріпити