Investigador da DeepMind especula que a razão para o adiamento do DeepSeek V4 é que a duplicação dos dados de treino para 33T causou grave instabilidade.

robot
Geração de resumo em curso
ME News - Notícia, 24 de abril (UTC+8), de acordo com a monitorização da Beating, o relatório técnico do DeepSeek V4 revela que o V4-Flash e o V4-Pro foram pré-treinados em 32T e 33T tokens, respetivamente, duplicando os cerca de 15T tokens do V3. O relatório admite que, durante o treino, "enfrentou desafios significativos de instabilidade", com loss spike (pico súbito de perda de treino) a ocorrer repetidamente, cuja causa raiz reside em valores anómalos nas camadas MoE, sendo que o próprio mecanismo de routing agrava esses valores anómalos, e um simples rollback não resolve o problema. A DeepSeek encontrou duas soluções que já foram aplicadas no treino real: Anticipatory Routing (roteamento antecipatório), que desacopla o cálculo do índice de roteamento da atualização da rede principal, sendo ativado automaticamente apenas quando deteta um loss spike, com um custo adicional de cerca de 20%; e SwiGLU Clamping, que restringe os valores de ativação a um intervalo fixo para suprimir diretamente os valores anómalos. O relatório afirma que ambos são eficazes, mas reconhece que "os princípios subjacentes ainda não são totalmente compreendidos". A investigadora do Google DeepMind, Susan Zhang (que trabalhou anteriormente na Meta AI e na OpenAI), comentou que a instabilidade causada pela duplicação dos dados de treino "explica o adiamento", descrevendo estas duas soluções como "band-aids", ao mesmo tempo que elogiou a transparência técnica da DeepSeek. (Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado