Онлайн-стратегія самодистиляції та імітація сновидінь можуть стати новим рішенням для безперервного навчання великих моделей.

robot
Генерація анотацій у процесі
币界网消息,OneMillion_AI发文称,大语言模型在部署后面临无法持续吸收新知识的难题,现有优化技术主要集中在扩大上下文窗口和提升查找速度,无法解决知识遗忘问题。在线策略自蒸馏(opsd)提供了一条新的权重更新路径,通过反向传播计算基础状态与教师状态在token级别的概率差异,提供监督信号,帮助基础模型逼近高分状态。相比于传统的监督微调,自蒸馏仅提取必要的决策经验,避免灾难性遗忘,保护大模型的通用常识。另一条学习路径是做梦模拟,模型在复杂任务中构建虚拟模拟器环境进行任务演练,成功轨迹将更新基础模型的权重。预计2027至2028年,AI代理在与人类协同工作一周后将接受工作评估,获得认可后将通过在线策略自蒸馏或做梦模拟,将实战经验内化至模型底层权重,实现能力的在线扩张。
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 5
  • 1
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
tvl_down_bad
· 4год тому
Чи не занадто оптимістичний цей графік 2027-2028? Здається, проблема вирівнювання ще не вирішена.
Переглянути оригіналвідповісти на0
GateUser-d6fb8ff1
· 4год тому
Моделювання снів нагадує мені самогру AlphaGo, де ШІ вдосконалює себе у віртуальному середовищі, а людям залишається лише остаточна перевірка.
Переглянути оригіналвідповісти на0
OneMoreReorg
· 4год тому
Зберегти загальні знання — це надзвичайно важливо, зараз, коли тонке налаштування на одне завдання змушує забути все, що вивчив раніше, просто як золота рибка.
Переглянути оригіналвідповісти на0
ChillBlock
· 4год тому
Ідея OPSD досить цікава, зворотне поширення обчислює різницю ймовірностей, що набагато елегантніше, ніж насильно вставляти нові дані.
Переглянути оригіналвідповісти на0
GateUser-8acf43da
· 4год тому
токен-рівневий сигнал нагляду розроблений дуже витончено, але звідки береться стан вчителя? Хто встановлює високі стандарти оцінки?
Переглянути оригіналвідповісти на0
  • Закріплено