V4 actualización post-entrenamiento: OPD sustituye a RL híbrido, destilando una docena de modelos expertos en uno.

robot
Generación de resúmenes en curso
ME News noticia, 24 de abril (UTC+8), según el monitoreo de Dongcha Beating, la metodología de post-entrenamiento de DeepSeek V4 ha cambiado significativamente: la fase de mixed RL de V3.2 ha sido completamente reemplazada por On-Policy Distillation (OPD, destilación de políticas en línea).
El nuevo proceso consta de dos pasos. Primer paso: para áreas como matemáticas, código, Agent, seguimiento de instrucciones, se entrenan respectivamente modelos expertos en el dominio basados en el pipeline de V3.2. Cada experto primero se afina y luego se entrena con refuerzo mediante GRPO. Segundo paso: usando OPD multi-maestro, se destilan las capacidades de más de diez expertos en un modelo unificado: el estudiante, sobre sus propias trayectorias generadas, realiza destilación de logits de vocabulario completo con divergencia KL inversa para cada maestro, y mediante la alineación a nivel de logits se fusionan los pesos de múltiples expertos en un espacio de parámetros unificado, evitando los conflictos de capacidad comunes en la combinación de pesos tradicional y mixed RL.
El informe también propone Generative Reward Model (GRM, modelo de recompensa generativa): para tareas difíciles de verificar con reglas, ya no se entrena un modelo de recompensa escalar tradicional, sino que se entrena GRM con datos de RL guiados por rúbrica, permitiendo que la red actor asuma simultáneamente capacidades de generación y evaluación, y con una pequeña cantidad de anotaciones humanas diversas se puede generalizar a tareas complejas.
(Fuente: BlockBeats)
DEEPSEEK-3,20%
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado