別再傻堆算力了!研究表明大模型越訓越「死板」,增大參數也無能為力

robot
摘要生成中
ME AI 消息,據 動察 Beating 監測,AI 隨著訓練時間變長,會逐漸喪失吸收新知識的能力(可塑性喪失),最終越訓練越死板。
如果無法攻克可塑性喪失,大模型就永遠無法低成本地持續學習,每次更新知識都只能把全部歷史數據和新數據放在一起重新訓練,消耗巨額算力。
AI 創企 Zyphra 的最新研究首次證明,增大模型雖然能延遲退化,但邊際效益遞減,僅靠堆參數無法根治可塑性喪失。
外推顯示,1B 參數模型在訓練 1.8 萬億 token 後就會變傻,7B 模型則在 9 萬億後顯現。
更顛覆的是,即使不進行任務切換,只讓模型在平穩的混合數據集裡訓練,可塑性喪失也照樣會發生。
研究指出,大模型變傻有三大直接原因:參數體積隨訓練不斷變大,在層歸一化(LayerNorm)機制下阻礙了梯度傳導;MLP 層的神經元大規模休眠「罷工」(部分模型甚至有 95% 的神經元進入休眠);注意力頭癱瘓(只盯著個別字符崩潰)或擺爛(對所有上下文均勻塗抹)。
針對這些病理特徵,潛在的治療方案包括限制參數膨脹、定期給罷工神經元實施「神經重置」強制活化,以及在注意力機制中引入隨機噪點強行糾偏。
(來源:BlockBeats)
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆