别再傻堆算力了!研究表明大模型越训越「死板」,增大参数也无能为力

robot
摘要生成中
ME AI 消息,据 动察 Beating 监测,AI 随着训练时间变长,会逐渐丧失吸收新知识的能力(可塑性丧失),最终越训练越死板。如果无法攻克可塑性丧失,大模型就永远无法低成本地持续学习,每次更新知识都只能把全部历史数据和新数据放在一起重新训练,消耗巨额算力。 AI 创企 Zyphra 的最新研究首次证明,增大模型虽然能延迟退化,但边际效益递减,仅靠堆参数无法根治可塑性丧失。外推显示,1B 参数模型在训练 1.8 万亿 token 后就会变傻,7B 模型则在 9 万亿后显现。更颠覆的是,即使不进行任务切换,只让模型在平稳的混合数据集里训练,可塑性丧失也照样会发生。 研究指出,大模型变傻有三大直接原因:参数体积随训练不断变大,在层归一化(LayerNorm)机制下阻碍了梯度传导;MLP 层的神经元大规模休眠「罢工」(部分模型甚至有 95% 的神经元进入休眠);注意力头瘫痪(只盯着个别字符崩溃)或摆烂(对所有上下文均匀涂抹)。针对这些病理特征,潜在的治疗方案包括限制参数膨胀、定期给罢工神经元实施「神经重置」强制活化,以及在注意力机制中引入随机噪点强行纠偏。 (来源:BlockBeats)
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论