Investigador da DeepMind especula sobre atraso do DeepSeek V4: Dados de treino duplicaram para 33T, causando instabilidade severa

robot
Geração de resumo em curso

De acordo com o monitoramento da Dongcha Beating, o relatório técnico do DeepSeek V4 revela que o V4-Flash e o V4-Pro foram pré-treinados com 32T e 33T tokens, respetivamente, duplicando os aproximadamente 15T tokens utilizados no V3. O relatório admite que o processo de treino enfrentou ‘desafios de instabilidade significativa’, com ocorrências repetidas de picos de perda (aumentos súbitos na perda de treino) atribuídos a valores discrepantes na camada MoE, e o próprio mecanismo de roteamento agravando esses valores discrepantes, tornando as simples reversões ineficazes. O DeepSeek identificou duas soluções que foram aplicadas no treino real: Roteamento Anticipatório, que desacopla os cálculos do índice de roteamento das atualizações da rede principal e é acionado automaticamente apenas quando um pico de perda é detectado, incorrendo numa sobrecarga adicional de cerca de 20%; e Limitação SwiGLU, que limita os valores de ativação a um intervalo fixo para suprimir diretamente os valores discrepantes. O relatório afirma que ambos os métodos são eficazes, mas reconhece que ‘os princípios subjacentes ainda não são totalmente compreendidos.’ A investigadora da Google DeepMind, Susan Zhang, que trabalhou anteriormente na Meta AI e na OpenAI, comentou que a instabilidade causada pelo duplicar dos dados de treino ‘explica o atraso’, descrevendo essas duas soluções como ‘curativos’, ao mesmo tempo que afirma a transparência técnica do DeepSeek.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar