廣場
最新
熱門
新聞
我的主頁
發布
別再傻堆算力了!研究表明大模型越訓越「死板」,增大參數也無能為力
ME News
2026-06-26 14:23:49
關注
摘要生成中
ME AI
消息,據 動察 Beating 監測,AI 隨著訓練時間變長,會逐漸喪失吸收新知識的能力(可塑性喪失),最終越訓練越死板。
如果無法攻克可塑性喪失,大模型就永遠無法低成本地持續學習,每次更新知識都只能把全部歷史數據和新數據放在一起重新訓練,消耗巨額算力。
AI 創企 Zyphra 的最新研究首次證明,增大模型雖然能延遲退化,但邊際效益遞減,僅靠堆參數無法根治可塑性喪失。
外推顯示,1B 參數模型在訓練 1.8 萬億 token 後就會變傻,7B 模型則在 9 萬億後顯現。
更顛覆的是,即使不進行任務切換,只讓模型在平穩的混合數據集裡訓練,可塑性喪失也照樣會發生。
研究指出,大模型變傻有三大直接原因:參數體積隨訓練不斷變大,在層歸一化(LayerNorm)機制下阻礙了梯度傳導;MLP 層的神經元大規模休眠「罷工」(部分模型甚至有 95% 的神經元進入休眠);注意力頭癱瘓(只盯著個別字符崩潰)或擺爛(對所有上下文均勻塗抹)。
針對這些病理特徵,潛在的治療方案包括限制參數膨脹、定期給罷工神經元實施「神經重置」強制活化,以及在注意力機制中引入隨機噪點強行糾偏。
(來源:BlockBeats)
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見
聲明
。
打賞
按讚
回覆
轉發
分享
回覆
請輸入回覆內容
請輸入回覆內容
回覆
暫無回覆
熱門話題
查看更多
#
0成本拿2股SK海力士
156.43萬 熱度
#
美光市值超越Meta躋身全美前十
23.3萬 熱度
#
哥倫比亞VS葡萄牙
34.4萬 熱度
#
美國5月PCE通膨升至4.1%創三年新高
56.06萬 熱度
#
USD1鏈上質押享年化9.48%
98.33萬 熱度
已置頂
網站地圖
別再傻堆算力了!研究表明大模型越訓越「死板」,增大參數也無能為力
如果無法攻克可塑性喪失,大模型就永遠無法低成本地持續學習,每次更新知識都只能把全部歷史數據和新數據放在一起重新訓練,消耗巨額算力。
AI 創企 Zyphra 的最新研究首次證明,增大模型雖然能延遲退化,但邊際效益遞減,僅靠堆參數無法根治可塑性喪失。
外推顯示,1B 參數模型在訓練 1.8 萬億 token 後就會變傻,7B 模型則在 9 萬億後顯現。
更顛覆的是,即使不進行任務切換,只讓模型在平穩的混合數據集裡訓練,可塑性喪失也照樣會發生。
研究指出,大模型變傻有三大直接原因:參數體積隨訓練不斷變大,在層歸一化(LayerNorm)機制下阻礙了梯度傳導;MLP 層的神經元大規模休眠「罷工」(部分模型甚至有 95% 的神經元進入休眠);注意力頭癱瘓(只盯著個別字符崩潰)或擺爛(對所有上下文均勻塗抹)。
針對這些病理特徵,潛在的治療方案包括限制參數膨脹、定期給罷工神經元實施「神經重置」強制活化,以及在注意力機制中引入隨機噪點強行糾偏。
(來源:BlockBeats)