V4 pós-treinamento atualizado: OPD substitui RL híbrido, destilação de uma dúzia de modelos especialistas em um.

robot
Geração do resumo em andamento
ME News informa, em 24 de abril (UTC+8), de acordo com o monitoramento da Dongcha Beating, a metodologia de pós-treinamento do DeepSeek V4 sofreu uma grande mudança: a fase mixed RL do V3.2 foi completamente substituída pelo On-Policy Distillation (OPD, destilação de política online).
O novo processo é dividido em duas etapas. Primeira etapa: para áreas como matemática, código, Agent, seguimento de instruções, treinar modelos especialistas separadamente com base no pipeline V3.2, cada especialista primeiro faz fine-tuning e depois usa GRPO para aprendizado por reforço.
Segunda etapa: usar OPD com múltiplos professores para destilar as capacidades de mais de dez especialistas em um modelo unificado: o aluno, em suas próprias trajetórias geradas, realiza destilação de logits de vocabulário completo com divergência KL reversa para cada professor, combinando os pesos dos múltiplos especialistas em um espaço de parâmetros unificado por meio do alinhamento no nível de logits, evitando conflitos de capacidade comuns no weight merging tradicional e no mixed RL.
O relatório também propõe o Generative Reward Model (GRM, modelo de recompensa generativo): para tarefas difíceis de verificar com regras, não se treina mais o modelo de recompensa escalar tradicional, mas sim se treina o GRM com dados de RL guiados por rubrica, permitindo que a rede ator assuma simultaneamente capacidades de geração e julgamento, generalizando para tarefas complexas com apenas algumas anotações humanas diversificadas.
(Fonte: BlockBeats)
DEEPSEEK-2,53%
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado