DeepSeek V4 duplica tokens em relação à V3, enfrentando instabilidade devido a outliers no MoE e picos impulsionados pelo roteamento; duas correções—Roteamento Antecipatório (perda-trigger, cerca de 20% de computação extra) e Limitação SwiGLU (limite de ativação)—abordam os problemas embora os princípios permaneçam obscuros. Zhang chama-os de curativos paliativos, mas transparentes.Resumo: Este relatório resume os desafios de treino do DeepSeek V4 e estratégias de mitigação. V4-Flash e V4-Pro foram pré-treinados com 32T e 33T tokens, aproximadamente dobrando os ~15T do V3, e experimentaram instabilidade significativa devido a outliers no processo de roteamento do MoE, com picos de perda e rollback ineficaz. Roteamento Antecipatório desacopla as atualizações do índice de roteamento do treino principal e ativa-se automaticamente em picos de perda, com cerca de 20% de computação extra; Limitação SwiGLU restringe as ativações a um intervalo fixo para suprimir outliers. Ambos os métodos foram eficazes, embora seus princípios subjacentes ainda não sejam totalmente compreendidos. Susan Zhang do Google DeepMind chamou as mudanças de curativos pragmáticos, elogiando a transparência do projeto.

AirdropBlackHole

2026-04-27 02:14:01

Geração de resumo em curso

De acordo com o monitoramento da Dongcha Beating, o relatório técnico do DeepSeek V4 revela que o V4-Flash e o V4-Pro foram pré-treinados com 32T e 33T tokens, respetivamente, duplicando os aproximadamente 15T tokens utilizados no V3. O relatório admite que o processo de treino enfrentou ‘desafios de instabilidade significativa’, com ocorrências repetidas de picos de perda (aumentos súbitos na perda de treino) atribuídos a valores discrepantes na camada MoE, e o próprio mecanismo de roteamento agravando esses valores discrepantes, tornando as simples reversões ineficazes. O DeepSeek identificou duas soluções que foram aplicadas no treino real: Roteamento Anticipatório, que desacopla os cálculos do índice de roteamento das atualizações da rede principal e é acionado automaticamente apenas quando um pico de perda é detectado, incorrendo numa sobrecarga adicional de cerca de 20%; e Limitação SwiGLU, que limita os valores de ativação a um intervalo fixo para suprimir diretamente os valores discrepantes. O relatório afirma que ambos os métodos são eficazes, mas reconhece que ‘os princípios subjacentes ainda não são totalmente compreendidos.’ A investigadora da Google DeepMind, Susan Zhang, que trabalhou anteriormente na Meta AI e na OpenAI, comentou que a instabilidade causada pelo duplicar dos dados de treino ‘explica o atraso’, descrevendo essas duas soluções como ‘curativos’, ao mesmo tempo que afirma a transparência técnica do DeepSeek.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
WCTCTradingKingPK
286.81K Popularidade
#
比特币Breaks79K
11.69M Popularidade
#
IsraelStrikesIranBTCPlunges
34.47K Popularidade
#
CryptoMarketsRiseBroadly
93.83K Popularidade
#
WHCADinnerShootingIncident
17.46K Popularidade

Fixar

Investigador da DeepMind especula sobre atraso do DeepSeek V4: Dados de treino duplicaram para 33T, causando instabilidade severa

Tópicos em destaque

WCTCTradingKingPK

比特币Breaks79K

IsraelStrikesIranBTCPlunges

CryptoMarketsRiseBroadly

WHCADinnerShootingIncident

Fixar