Atualização de pós-treinamento V4: OPD substitui RL híbrido, mais de dez modelos especialistas destilados em um

robot
Geração de resumo em curso
ME News notícia, 24 de abril (UTC+8), segundo monitoramento da 动察 Beating, a metodologia de pós-treinamento do DeepSeek V4 sofreu uma grande mudança: a fase de mixed RL do V3.2 foi completamente substituída pela On-Policy Distillation (OPD, destilação de política online). O novo processo divide-se em duas etapas. Na primeira etapa, para áreas como matemática, código, Agente, seguimento de instruções, são treinados modelos especialistas de domínio com base na pipeline do V3.2, cada especialista primeiro faz fine-tuning e depois utiliza GRPO para aprendizagem por reforço. Na segunda etapa, a capacidade de mais de uma dezena de especialistas é destilada num modelo unificado usando OPD multi-professor: o aluno, nas suas próprias trajetórias geradas, realiza destilação de logits de vocabulário completo com divergência KL reversa para cada professor, através do alinhamento ao nível dos logits, combinando os pesos de múltiplos especialistas num espaço de parâmetros unificado, evitando conflitos de capacidade comuns em weight merging tradicional e mixed RL. O relatório também propõe o Generative Reward Model (GRM, modelo de recompensa generativo): para tarefas difíceis de verificar por regras, em vez de treinar modelos de recompensa escalares tradicionais, treina-se o GRM com dados de RL guiados por rubric, permitindo que a rede ator assuma simultaneamente capacidades de geração e avaliação, usando uma pequena quantidade de anotações humanas diversificadas para generalizar para tarefas complexas. (Fonte: BlockBeats)
DEEPSEEK-2,53%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado