Muon при обучении показывает очень точную уверенность, но при переходе к новым образцам легко переобучается

robot
Генерация тезисов в процессе

币界网消息,Muon优化器在训练时表现出很高的自信度,但在新样本上容易出现过度自信的现象。最新论文《too sharp, too sure: when calibration follows curvature》指出,模型在训练集上能准确判断自己的把握程度,但在测试集上,置信度与实际正确率不符,导致过度自信。实验显示,Muon在CIFAR-10图像分类任务中的测试ECE为0.065,AdamW为0.061,SGD为0.081,SAM为0.020。Muon的训练ECE几乎为0,显示出训练集与测试集之间的落差更明显。论文提出的Calmo方法能将Muon的测试ECE降至0.019,但尚未在大语言模型上验证。DeepSeek V4技术报告显示,部分模块仍使用AdamW,提醒需关注Muon在泛化时的表现。

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить