廣場
最新
熱門
新聞
我的主頁
發布
DeepMind研究員推測DeepSeek V4延期原因:訓練數據翻倍至33T引發嚴重不穩定
ME News
2026-07-03 07:52:33
關注
摘要生成中
ME News 消息,4 月 24 日(UTC+8),據 動察 Beating 監測,DeepSeek V4 技術報告披露,V4-Flash 和 V4-Pro 分別在 32T 和 33T tokens 上預訓練,較 V3 的約 15T tokens 翻倍。報告坦承訓練過程中「遭遇了顯著的不穩定性挑戰」,loss spike(訓練損失突然飆升)反覆出現,根源在於 MoE 層的異常值,路由機制本身還會加劇這些異常值,簡單回滾無法根治。 DeepSeek 找到兩個方案並已應用於實際訓練:Anticipatory Routing(預見性路由),將路由索引計算與主幹網絡更新解耦,僅在檢測到 loss spike 時自動觸發,額外開銷約 20%;SwiGLU Clamping,將激活值鉗位到固定範圍直接壓制異常值。報告稱兩者均有效,但承認「底層原理尚未充分理解」。 谷歌 DeepMind 研究員 Susan Zhang(曾供職於 Meta AI 和 OpenAI)評論稱,訓練數據翻倍後引發的不穩定性「解釋了延期」,將這兩個方案形容為「創口貼」,同時肯定了 DeepSeek 的技術透明度。 (來源:BlockBeats)
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見
聲明
。
打賞
按讚
回覆
轉發
分享
回覆
請輸入回覆內容
請輸入回覆內容
回覆
暫無回覆
熱門話題
查看更多
#
gStocks代幣化股票上線
399.38萬 熱度
#
非農爆冷打壓加息預期
102.78萬 熱度
#
預測世界盃葡萄牙VS克羅地亞
18.19萬 熱度
#
ETH突破1700
1.52億 熱度
#
Meta賣算力引發存儲股大跌
138.93萬 熱度
已置頂
網站地圖
DeepMind研究員推測DeepSeek V4延期原因:訓練數據翻倍至33T引發嚴重不穩定