Muon під час тренування має дуже точну впевненість, але при переході до нових зразків легко переоцінює.

robot
Генерація анотацій у процесі

Біянь Вей повідомляє, що оптимізатор Muon під час тренування демонструє високу впевненість, але на нових зразках схильний до надмірної впевненості. Остання стаття «занадто гострий, занадто впевнений: коли калібрування слідує кривизні» вказує, що модель може точно оцінювати свою впевненість на тренувальному наборі, але на тестовому наборі рівень довіри не відповідає фактичній точності, що призводить до надмірної впевненості. Експерименти показали, що тестовий ECE Muon у задачі класифікації зображень CIFAR-10 становить 0.065, у порівнянні з AdamW — 0.061, SGD — 0.081, SAM — 0.020. Тренувальний ECE Muon майже дорівнює 0, що свідчить про більш виражену різницю між тренувальним і тестовим наборами. Метод Calmo, запропонований у статті, може знизити тестовий ECE Muon до 0.019, але ще не був перевірений на великих мовних моделях. Технічний звіт DeepSeek V4 показує, що деякі модулі все ще використовують AdamW, наголошуючи на необхідності стежити за поведінкою Muon при генералізації.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити