廣場
最新
熱門
新聞
我的主頁
發布
在線策略自蒸餾與做夢模擬或成大模型持續學習新解法
币 界 网
2026-06-28 02:27:17
關注
摘要生成中
幣界網消息,OneMillion_AI發文稱,大語言模型在部署後面臨無法持續吸收新知識的難題,現有優化技術主要集中在擴大上下文窗口和提升查找速度,無法解決知識遺忘問題。在線策略自蒸餾(opsd)提供了一條新的權重更新路徑,通過反向傳播計算基礎狀態與教師狀態在token級別的機率差異,提供監督信號,幫助基礎模型逼近高分狀態。相比於傳統的監督微調,自蒸餾僅提取必要的決策經驗,避免災難性遺忘,保護大模型的通用常識。另一條學習路徑是做夢模擬,模型在複雜任務中構建虛擬模擬器環境進行任務演練,成功軌跡將更新基礎模型的權重。預計2027至2028年,AI代理在與人類協同工作一週後將接受工作評估,獲得認可後將通過在線策略自蒸餾或做夢模擬,將實戰經驗內化至模型底層權重,實現能力的在線擴張。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見
聲明
。
3人按讚了這條動態
打賞
3
5
1
分享
回覆
請輸入回覆內容
請輸入回覆內容
回覆
tvl_down_bad
· 5小時前
2027-2028這個時間表是不是太樂觀了?感覺對齊問題還沒解決
查看原文
回復
0
GateUser-d6fb8ff1
· 5小時前
做夢模擬讓我想到AlphaGo的自我對弈,AI在虛擬環境裡卷自己,人類只需要最後驗收
查看原文
回復
0
OneMoreReorg
· 5小時前
保留通用常識這點太關鍵,現在微調一個任務就把之前學的忘光,簡直金魚。
查看原文
回復
0
ChillBlock
· 5小時前
OPSD這個思路挺有意思,反向傳播算概率差異,比硬塞新數據優雅多了
查看原文
回復
0
GateUser-8acf43da
· 5小時前
token級監督訊號設計得很精巧,但教師狀態本身從哪來?高分標準誰定
查看原文
回復
0
熱門話題
查看更多
#
0成本拿2股SK海力士
164.04萬 熱度
#
美光市值超越Meta躋身全美前十
35.18萬 熱度
#
南非VS加拿大
12.88萬 熱度
#
美國5月PCE通膨升至4.1%創三年新高
19.49萬 熱度
#
USD1鏈上質押享年化9.48%
100.43萬 熱度
已置頂
網站地圖
在線策略自蒸餾與做夢模擬或成大模型持續學習新解法