广场
最新
热门
资讯
我的主页
发布
别再傻堆算力了!研究表明大模型越训越「死板」,增大参数也无能为力
ME News
2026-06-26 14:23:49
关注
摘要生成中
ME AI
消息,据 动察 Beating 监测,AI 随着训练时间变长,会逐渐丧失吸收新知识的能力(可塑性丧失),最终越训练越死板。如果无法攻克可塑性丧失,大模型就永远无法低成本地持续学习,每次更新知识都只能把全部历史数据和新数据放在一起重新训练,消耗巨额算力。 AI 创企 Zyphra 的最新研究首次证明,增大模型虽然能延迟退化,但边际效益递减,仅靠堆参数无法根治可塑性丧失。外推显示,1B 参数模型在训练 1.8 万亿 token 后就会变傻,7B 模型则在 9 万亿后显现。更颠覆的是,即使不进行任务切换,只让模型在平稳的混合数据集里训练,可塑性丧失也照样会发生。 研究指出,大模型变傻有三大直接原因:参数体积随训练不断变大,在层归一化(LayerNorm)机制下阻碍了梯度传导;MLP 层的神经元大规模休眠「罢工」(部分模型甚至有 95% 的神经元进入休眠);注意力头瘫痪(只盯着个别字符崩溃)或摆烂(对所有上下文均匀涂抹)。针对这些病理特征,潜在的治疗方案包括限制参数膨胀、定期给罢工神经元实施「神经重置」强制活化,以及在注意力机制中引入随机噪点强行纠偏。 (来源:BlockBeats)
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见
声明
。
赞赏
点赞
评论
转发
分享
评论
请输入评论内容
请输入评论内容
评论
暂无评论
热门话题
查看更多
#
0成本拿2股SK海力士
156.43万 热度
#
美光市值超越Meta跻身全美前十
23.3万 热度
#
哥伦比亚VS葡萄牙
34.4万 热度
#
美国5月PCE通胀升至4.1%创三年新高
56.06万 热度
#
USD1链上质押享年化9.48%
98.33万 热度
置顶
网站地图
别再傻堆算力了!研究表明大模型越训越「死板」,增大参数也无能为力