La confianza en Muon es muy precisa durante el entrenamiento, pero con muestras nuevas tiende a sobreajustarse.

robot
Generación de resúmenes en curso

La noticia de CoinWorld informa que el optimizador Muon muestra una alta confianza durante el entrenamiento, pero tiende a ser excesivamente confiado en nuevas muestras. El último artículo titulado «demasiado afilado, demasiado seguro: cuando la calibración sigue la curvatura» señala que el modelo puede juzgar con precisión su nivel de confianza en el conjunto de entrenamiento, pero en el conjunto de prueba, la confianza no coincide con la tasa de aciertos real, lo que conduce a una sobreconfianza. Los experimentos muestran que, en la tarea de clasificación de imágenes CIFAR-10, el ECE de prueba de Muon es 0.065, AdamW es 0.061, SGD es 0.081 y SAM es 0.020. El ECE de entrenamiento de Muon es casi 0, lo que indica una diferencia más marcada entre el conjunto de entrenamiento y el de prueba. El método Calmo propuesto en el artículo puede reducir el ECE de prueba de Muon a 0.019, pero aún no ha sido validado en grandes modelos de lenguaje. El informe técnico de DeepSeek V4 muestra que algunos módulos todavía usan AdamW, recordando la necesidad de prestar atención al rendimiento de Muon en la generalización.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado