在線策略自蒸餾與做夢模擬或成大模型持續學習新解法

robot
摘要生成中
幣界網消息,OneMillion_AI發文稱,大語言模型在部署後面臨無法持續吸收新知識的難題,現有優化技術主要集中在擴大上下文窗口和提升查找速度,無法解決知識遺忘問題。在線策略自蒸餾(opsd)提供了一條新的權重更新路徑,通過反向傳播計算基礎狀態與教師狀態在token級別的機率差異,提供監督信號,幫助基礎模型逼近高分狀態。相比於傳統的監督微調,自蒸餾僅提取必要的決策經驗,避免災難性遺忘,保護大模型的通用常識。另一條學習路徑是做夢模擬,模型在複雜任務中構建虛擬模擬器環境進行任務演練,成功軌跡將更新基礎模型的權重。預計2027至2028年,AI代理在與人類協同工作一週後將接受工作評估,獲得認可後將通過在線策略自蒸餾或做夢模擬,將實戰經驗內化至模型底層權重,實現能力的在線擴張。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 5
  • 1
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
tvl_down_bad
· 5小時前
2027-2028這個時間表是不是太樂觀了?感覺對齊問題還沒解決
查看原文回復0
GateUser-d6fb8ff1
· 5小時前
做夢模擬讓我想到AlphaGo的自我對弈,AI在虛擬環境裡卷自己,人類只需要最後驗收
查看原文回復0
OneMoreReorg
· 5小時前
保留通用常識這點太關鍵,現在微調一個任務就把之前學的忘光,簡直金魚。
查看原文回復0
ChillBlock
· 5小時前
OPSD這個思路挺有意思,反向傳播算概率差異,比硬塞新數據優雅多了
查看原文回復0
GateUser-8acf43da
· 5小時前
token級監督訊號設計得很精巧,但教師狀態本身從哪來?高分標準誰定
查看原文回復0