币界网报道，Muon优化器训练时自信度高，但对新样本常过度自信。 Статья «слишком острый, слишком уверенный: когда калибровка следует кривизне» утверждает, что уверенность в обучающем наборе не совпадает с фактической точностью, и при тестировании возникает переуверенность. Эксперимент на CIFAR-10 показывает, что тестовый ECE: Muon 0.065, AdamW 0.061, SGD 0.081, SAM 0.020; Обучающий ECE близок к 0, что указывает на значительную разницу в обобщении. Статья предлагает Calmo, который может снизить тестовый ECE Muon до 0.019, но еще не проверен на больших языковых моделях. DeepSeek V4 сообщает, что некоторые модули все еще используют AdamW, и необходимо следить за обобщающей способностью Muon.

CoinNetwork

2026-04-27 07:45:55

Генерация тезисов в процессе

币界网消息，Muon优化器在训练时表现出很高的自信度，但在新样本上容易出现过度自信的现象。最新论文《too sharp, too sure: when calibration follows curvature》指出，模型在训练集上能准确判断自己的把握程度，但在测试集上，置信度与实际正确率不符，导致过度自信。实验显示，Muon在CIFAR-10图像分类任务中的测试ECE为0.065，AdamW为0.061，SGD为0.081，SAM为0.020。Muon的训练ECE几乎为0，显示出训练集与测试集之间的落差更明显。论文提出的Calmo方法能将Muon的测试ECE降至0.019，但尚未在大语言模型上验证。DeepSeek V4技术报告显示，部分模块仍使用AdamW，提醒需关注Muon在泛化时的表现。

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
WCTCTradingKingPK
283.3K Популярность
#
比特币Breaks79K
11.68M Популярность
#
IsraelStrikesIranBTCPlunges
34.41K Популярность
#
CryptoMarketsRiseBroadly
90.91K Популярность
#
WHCADinnerShootingIncident
16.14K Популярность

Закрепить

Карта сайта

Muon при обучении показывает очень точную уверенность, но при переходе к новым образцам легко переобучается

Популярные темы

WCTCTradingKingPK

比特币Breaks79K

IsraelStrikesIranBTCPlunges

CryptoMarketsRiseBroadly

WHCADinnerShootingIncident

Закрепить