币界网报道，Muon优化器训练时自信度高，但对新样本常过度自信。 L'article "trop pointu, trop sûr : lorsque la calibration suit la courbure" indique que la confiance lors de l'entraînement ne correspond pas au taux de réussite réel, et qu'une confiance excessive apparaît lors des tests. Les expériences sur CIFAR-10 montrent que le ECE de test : Muon 0,065, AdamW 0,061, SGD 0,081, SAM 0,020 ; le ECE d'entraînement étant proche de 0, ce qui indique une différence de généralisation significative. L'article propose que Calmo puisse réduire le ECE de test de Muon à 0,019, mais cela n'a pas encore été vérifié sur de grands modèles linguistiques. DeepSeek V4 rapporte que certains modules utilisent encore AdamW, il faut surveiller la performance de généralisation de Muon.

CoinNetwork

2026-04-27 07:45:55

Création du résumé en cours

CoinWorld消息，Muon优化器在训练时表现出很高的自信度，但在新样本上容易出现过度自信的现象。最新论文《过于尖锐，过于自信：当校准跟随曲率》指出，模型在训练集上能准确判断自己的把握程度，但在测试集上，置信度与实际正确率不符，导致过度自信。实验显示，Muon在CIFAR-10图像分类任务中的测试ECE为0.065，AdamW为0.061，SGD为0.081，SAM为0.020。Muon的训练ECE几乎为0，显示出训练集与测试集之间的差距更明显。论文提出的Calmo方法能将Muon的测试ECE降至0.019，但尚未在大语言模型上验证。DeepSeek V4技术报告显示，部分模块仍使用AdamW，提醒需关注Muon在泛化时的表现。

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
WCTCTradingKingPK
283.46K Popularité
#
比特币Breaks79K
11.68M Popularité
#
IsraelStrikesIranBTCPlunges
34.41K Popularité
#
CryptoMarketsRiseBroadly
90.97K Popularité
#
WHCADinnerShootingIncident
16.18K Popularité

Épingler

La confiance lors de l'entraînement de Muon est très précise, mais elle a tendance à devenir excessive lorsqu'on passe à de nouveaux échantillons

Sujets populaires

WCTCTradingKingPK

比特币Breaks79K

IsraelStrikesIranBTCPlunges

CryptoMarketsRiseBroadly

WHCADinnerShootingIncident

Épingler