广场
最新
热门
资讯
我的主页
发布
在线策略自蒸馏与做梦模拟或成大模型持续学习新解法
币 界 网
2026-06-28 02:27:17
关注
摘要生成中
币界网消息,OneMillion_AI发文称,大语言模型在部署后面临无法持续吸收新知识的难题,现有优化技术主要集中在扩大上下文窗口和提升查找速度,无法解决知识遗忘问题。在线策略自蒸馏(opsd)提供了一条新的权重更新路径,通过反向传播计算基础状态与教师状态在token级别的概率差异,提供监督信号,帮助基础模型逼近高分状态。相比于传统的监督微调,自蒸馏仅提取必要的决策经验,避免灾难性遗忘,保护大模型的通用常识。另一条学习路径是做梦模拟,模型在复杂任务中构建虚拟模拟器环境进行任务演练,成功轨迹将更新基础模型的权重。预计2027至2028年,AI代理在与人类协同工作一周后将接受工作评估,获得认可后将通过在线策略自蒸馏或做梦模拟,将实战经验内化至模型底层权重,实现能力的在线扩张。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见
声明
。
3人点赞了这条动态
赞赏
3
5
1
分享
评论
请输入评论内容
请输入评论内容
评论
tvl_down_bad
· 4小时前
2027-2028这个时间表是不是太乐观了?感觉对齐问题还没解决
回复
0
GateUser-d6fb8ff1
· 4小时前
做梦模拟让我想到AlphaGo的自我对弈,AI在虚拟环境里卷自己,人类只需要最后验收
回复
0
OneMoreReorg
· 4小时前
保留通用常识这点太关键,现在微调一个任务就把之前学的忘光,简直金鱼
回复
0
ChillBlock
· 4小时前
OPSD这个思路挺有意思,反向传播算概率差异,比硬塞新数据优雅多了
回复
0
GateUser-8acf43da
· 4小时前
token级监督信号设计得很精巧,但教师状态本身从哪来?高分标准谁定
回复
0
热门话题
查看更多
#
0成本拿2股SK海力士
164.38万 热度
#
美光市值超越Meta跻身全美前十
48.57万 热度
#
南非VS加拿大
12.7万 热度
#
美国5月PCE通胀升至4.1%创三年新高
19.36万 热度
#
USD1链上质押享年化9.48%
100.37万 热度
置顶
网站地图
在线策略自蒸馏与做梦模拟或成大模型持续学习新解法