La autodestilación de estrategias en línea y la simulación de sueños podrían convertirse en nuevas soluciones para el aprendizaje continuo de modelos grandes.

robot
Generación de resúmenes en curso
币界网消息,OneMillion_AI发文称,大语言模型在部署后面临无法持续吸收新知识的难题,现有优化技术主要集中在扩大上下文窗口和提升查找速度,无法解决知识遗忘问题。在线策略自蒸馏(opsd)提供了一条新的权重更新路径,通过反向传播计算基础状态与教师状态在token级别的概率差异,提供监督信号,帮助基础模型逼近高分状态。相比于传统的监督微调,自蒸馏仅提取必要的决策经验,避免灾难性遗忘,保护大模型的通用常识。另一条学习路径是做梦模拟,模型在复杂任务中构建虚拟模拟器环境进行任务演练,成功轨迹将更新基础模型的权重。预计2027至2028年,AI代理在与人类协同工作一周后将接受工作评估,获得认可后将通过在线策略自蒸馏或做梦模拟,将实战经验内化至模型底层权重,实现能力的在线扩张。
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 5
  • 1
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
tvl_down_bad
· hace4h
¿El cronograma 2027-2028 es demasiado optimista? Siento que el problema de alineación aún no se ha resuelto.
Ver originalResponder0
GateUser-d6fb8ff1
· hace4h
Soñar en simulación me recuerda al auto-juego de AlphaGo, donde la IA se enfrenta a sí misma en un entorno virtual, y los humanos solo necesitan la verificación final.
Ver originalResponder0
OneMoreReorg
· hace4h
Preservar el conocimiento general es crucial, ahora ajustar una tarea hace que se olvide todo lo aprendido antes, es como un pez dorado.
Ver originalResponder0
ChillBlock
· hace4h
La idea de OPSD es bastante interesante. Calcular la diferencia de probabilidad mediante retropropagación es mucho más elegante que forzar nuevos datos.
Ver originalResponder0
GateUser-8acf43da
· hace4h
El diseño de las señales de supervisión a nivel de token es muy ingenioso, pero ¿de dónde proviene el estado del profesor? ¿Quién establece el estándar de alta puntuación?
Ver originalResponder0