A confiança durante o treino do Muon é muito precisa, mas ao mudar para uma nova amostra, é fácil exagerar

robot
Geração de resumo em curso

Notícias do site Coinjie, o otimizador Muon demonstra alta confiança durante o treinamento, mas tende a apresentar excesso de confiança em novas amostras. O mais recente artigo 《too sharp, too sure: when calibration follows curvature》 aponta que o modelo consegue avaliar com precisão seu nível de confiança no conjunto de treinamento, mas no conjunto de teste, a confiança não corresponde à taxa de acerto real, levando ao excesso de confiança. Experimentos mostram que, na tarefa de classificação de imagens CIFAR-10, o ECE de teste do Muon é 0,065, o do AdamW é 0,061, o do SGD é 0,081, e o do SAM é 0,020. O ECE de treinamento do Muon é quase zero, indicando uma diferença mais acentuada entre o conjunto de treinamento e o de teste. O método Calmo, proposto no artigo, consegue reduzir o ECE de teste do Muon para 0,019, mas ainda não foi validado em grandes modelos de linguagem. O relatório técnico DeepSeek V4 mostra que alguns módulos ainda utilizam AdamW, alertando para a necessidade de monitorar o desempenho do Muon na generalização.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar