Pesquisador da DeepMind especula sobre o motivo do adiamento do DeepSeek V4: o aumento dos dados de treino para 33T causou instabilidade grave

De acordo com o monitoramento Beating, o relatório técnico do DeepSeek V4 revelou que o V4-Flash e o V4-Pro foram pré-treinados em 32T e 33T tokens, respectivamente, o que é o dobro dos aproximadamente 15T tokens do V3.
O relatório admite que durante o treinamento enfrentaram «desafios significativos de instabilidade», com picos de perda (loss spike) ocorrendo repetidamente, cuja origem está nos valores aberrantes na camada MoE, e o mecanismo de roteamento ainda pode agravar esses valores anormais, sendo que uma simples reversão não resolve completamente.

O DeepSeek encontrou duas soluções que já foram aplicadas no treinamento real: Roteamento Antecipatório (Anticipatory Routing), que desacopla o cálculo do índice de roteamento da atualização da rede principal, ativando-se automaticamente apenas ao detectar loss spike, com um custo adicional de cerca de 20%; e o Limite SwiGLU (SwiGLU Clamping), que limita os valores de ativação a um intervalo fixo para suprimir diretamente os valores aberrantes.
O relatório afirma que ambas são eficazes, mas reconhece que «os princípios subjacentes ainda não são totalmente compreendidos».

Pesquisadora do DeepMind do Google, Susan Zhang (que já trabalhou na Meta AI e na OpenAI), comentou que a instabilidade provocada pelo aumento do dobro nos dados de treinamento «explica o atraso», descrevendo essas duas soluções como «curativos», ao mesmo tempo em que elogiou a transparência técnica do DeepSeek.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar