Distilasi diri strategi online dan simulasi mimpi mungkin menjadi solusi baru untuk pembelajaran berkelanjutan model besar

robot
Pembuatan abstrak sedang berlangsung
币界网消息,OneMillion_AI发文称,大语言模型在部署后面临无法持续吸收新知识的难题,现有优化技术主要集中在扩大上下文窗口和提升查找速度,无法解决知识遗忘问题。在线策略自蒸馏(opsd)提供了一条新的权重更新路径,通过反向传播计算基础状态与教师状态在token级别的概率差异,提供监督信号,帮助基础模型逼近高分状态。相比于传统的监督微调,自蒸馏仅提取必要的决策经验,避免灾难性遗忘,保护大模型的通用常识。另一条学习路径是做梦模拟,模型在复杂任务中构建虚拟模拟器环境进行任务演练,成功轨迹将更新基础模型的权重。预计2027至2028年,AI代理在与人类协同工作一周后将接受工作评估,获得认可后将通过在线策略自蒸馏或做梦模拟,将实战经验内化至模型底层权重,实现能力的在线扩张。
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 5
  • 1
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
tvl_down_bad
· 4jam yang lalu
Apakah jadwal 2027-2028 ini terlalu optimis? Sepertinya masalah alignment belum terselesaikan.
Lihat AsliBalas0
GateUser-d6fb8ff1
· 4jam yang lalu
Simulasi mimpi mengingatkan saya pada AlphaGo yang bermain melawan dirinya sendiri, AI bersaing dengan dirinya sendiri di lingkungan virtual, manusia hanya perlu melakukan verifikasi akhir.
Lihat AsliBalas0
OneMoreReorg
· 4jam yang lalu
Mempertahankan pengetahuan umum ini sangat penting, sekarang melakukan fine-tuning satu tugas saja bisa melupakan semua yang dipelajari sebelumnya, benar-benar seperti ikan mas.
Lihat AsliBalas0
ChillBlock
· 4jam yang lalu
OPSD ide ini cukup menarik, propagasi balik menghitung perbedaan probabilitas, jauh lebih elegan daripada memaksakan data baru.
Lihat AsliBalas0
GateUser-8acf43da
· 4jam yang lalu
Sinyal supervisi tingkat token dirancang dengan sangat cermat, tetapi dari mana status guru itu sendiri berasal? Siapa yang menetapkan standar skor tinggi?
Lihat AsliBalas0